強化学習は、AI自身が試行錯誤しながら最適なシステム制御を実現する手法です。とはいえ何もかも自動的にやってくれるわけではなく、強化学習では“報酬“の定義を人間が決める必要があります。AIが学習したら報酬を与えていくことを繰り返すことで、AIは報酬の期待値を最大化するような行動を学習していきます。
例えば、物流会社における配送の最適化を考えた場合、「短い時間、なおかつ短い距離で配送を行うこと」を報酬と定義した場合、AIは長い時間をかけて遠回りしたときよりも、短い時間で短い距離を選んだときのほうが多く報酬をもらうことができ、より短時間・短距離で配送を行えるように少しずつ賢くなっていきます。
より短い時間で距離を短くすれば、AIは報酬をもらえるので、少しずつ賢くなっていきます。
当社は、帝人様との共同開発で、病院の医療機器を病棟棚に配備するタイミングの最適化を、この強化学習を活用して開発して、よい結果をおさめることができました。なんといっても、「報酬」をどのように設定するかが肝です。教師ありのように、あらかじめ「正解」が分かっていればいいのですが、試行錯誤を通じて正解を算出するにはベストの手法であります。囲碁や将棋は、この一手ではなく最終的に勝つことを報酬の最大とするので、この強化学習が活用されています。