強化学習について

強化学習は、AI自身が試行錯誤しながら最適なシステム制御を実現する手法です。とはいえ何もかも自動的にやってくれるわけではなく、強化学習では“報酬“の定義を人間が決める必要があります。AIが学習したら報酬を与えていくことを繰り返すことで、AIは報酬の期待値を最大化するような行動を学習していきます。

例えば、物流会社における配送の最適化を考えた場合、「短い時間、なおかつ短い距離で配送を行うこと」を報酬と定義した場合、AIは長い時間をかけて遠回りしたときよりも、短い時間で短い距離を選んだときのほうが多く報酬をもらうことができ、より短時間・短距離で配送を行えるように少しずつ賢くなっていきます。

より短い時間で距離を短くすれば、AIは報酬をもらえるので、少しずつ賢くなっていきます。

病院の医療機器を病棟棚に配備するタイミングの最適化を、この強化学習を活用して開発して、よい結果をおさめることができました。なんといっても、「報酬」をどのように設定するかが肝です。教師ありのように、あらかじめ「正解」が分かっていればいいのですが、試行錯誤を通じて正解を算出するにはベストの手法であります。囲碁や将棋は、この一手ではなく最終的に勝つことを報酬の最大とするので、この強化学習が活用されています。

AI検討背景

大手病院では、医療機器の所在を把握するためにRFIDというタグを機器に取り付けている。RFIDの情報を活用して、より効率的に機器の在庫管理を行い、病棟ごとに最適な在庫の数を算出し、運用コストを削減したい。

AI最適化の結果

在庫を3％削減
機器分配ルールを改善し欠品リスクを50％改善

AI開発内容

各病棟の機器の状態をRFIDを通してAIが検出。強化学習の手法を用いて、在庫不足を抑えつつ、各病棟の在庫を最小にする振り分けルールを獲得させる。