【AI：機械学習】深層強化学習で問題を解かせてみた。 -

アルチテックは産業系システムを開発している会社ですが、新しい取り組みの一つが産業系システムにAIを活用したいと考えています。

特に注目しているのが深層強化学習で、強化学習と深層学習（多層ニューラルネットワーク）の手法を組み合わせた物です。

今回は具体的に深層強化学習によりエージェントを学習させて、問題を解いてみたいと思います。

問題設定

工場で深層強化学習を使う事を想定して、フォークリフトが搬送物にたどり着く事をタスクとして設定しました。

登場する要素は、「フォークリフト」と「カラーコーン」、「搬送物」です。

左上がスタート位置で、搬送物のある左下がゴール位置です。フォークリフトがスタート位置から障害物を避けて、ゴール位置を目指します。

１．フォークリフトの行動は「右、左、上、下」に１マスずつ行動することができます。

２．フィールドが３マスｘ３マスで、範囲外に進むことはできず、壁に当たる事とします。

３．障害物であるカラーコーンには進むことはできない事とします。

深層強化学習による学習過程をわかりやすくするために、アニメーションやグラフで表示しています。

フォークリフトがカラーコーンを避けて、搬送物までたどり着くまでをアニメーション表示しています。

学習過程とloss（損失）のグラフです。損失が少ないほど最適に近づいていることになります。

最終的なQ関数で、各位置で値が大きい行動をフォークリフトが選ぶようになります。

最終的な方策で、フォークリフトが搬送物にたどり着くまでの各位置ごとの最適な行動を表しています。

学習を始めた初期の段階では、フォークリフトはどこに行けば良いかわからないため、彷徨っています。

ランダムな行動を取って、搬送物に辿り着くと１回の学習が終わります。

学習を重ねる事に少しづつ、取るべき行動がわかってきて、早く搬送物に辿り着くようになります。

最終的に最適な行動が取れるようになり、各位置の最適な行動を導く事ができました。

フォークリフトが搬送物までたどり着くための最善の方策を深層強化学習で解いてみました。

今回のフォークリフトのタスクは、カラーコーンや搬送物の場所が固定で３マスｘ３マスの小さなフィールドなので、単なる強化学習で学習することができます。

ただし、カラーコーンや搬送物の場所がランダムになったり、縦横のマスが多くなり大きなフィールドになると、膨大な学習量になるため、深層強化学習が必要になります。

興味のある方は、深層強化学習について勉強してみてください。

「詳しく話を聞いてみたい！」、「開発に携わりたい！！」など興味のある方は是非、アルチテック株式会社に気軽に来てみてください。

あなたをプロにすることを約束します。

アルチテックのインターンシップはハイレベル。

現役のシステムエンジニアがマンツーマン指導

市場価値が高い産業系システムエンジニアを目指そう！