人工知能

【AI:機械学習】深層強化学習で問題を解かせてみた。

アルチテックは産業系システムを開発している会社ですが、新しい取り組みの一つが産業系システムにAIを活用したいと考えています。

特に注目しているのが深層強化学習で、強化学習と深層学習(多層ニューラルネットワーク)の手法を組み合わせた物です。

今回は具体的に深層強化学習によりエージェントを学習させて、問題を解いてみたいと思います。


問題設定

工場で深層強化学習を使う事を想定して、フォークリフトが搬送物にたどり着く事をタスクとして設定しました。

登場する要素は、「フォークリフト」と「カラーコーン」、「搬送物」です。

左上がスタート位置で、搬送物のある左下がゴール位置です。フォークリフトがスタート位置から障害物を避けて、ゴール位置を目指します。

動作条件

1.フォークリフトの行動は「右、左、上、下」に1マスずつ行動することができます。

2.フィールドが3マスx3マスで、範囲外に進むことはできず、壁に当たる事とします。

3.障害物であるカラーコーンには進むことはできない事とします。

学習過程のアニメーション

深層強化学習による学習過程をわかりやすくするために、アニメーションやグラフで表示しています。

アニメーション表示(右下)

フォークリフトがカラーコーンを避けて、搬送物までたどり着くまでをアニメーション表示しています。

損失関数グラフ(左下)

学習過程とloss(損失)のグラフです。損失が少ないほど最適に近づいていることになります。

Q関数(左上)

最終的なQ関数で、各位置で値が大きい行動をフォークリフトが選ぶようになります。

方策(右上)

最終的な方策で、フォークリフトが搬送物にたどり着くまでの各位置ごとの最適な行動を表しています。

学習を始めた初期の段階では、フォークリフトはどこに行けば良いかわからないため、彷徨っています。

ランダムな行動を取って、搬送物に辿り着くと1回の学習が終わります。

学習を重ねる事に少しづつ、取るべき行動がわかってきて、早く搬送物に辿り着くようになります。

最終的に最適な行動が取れるようになり、各位置の最適な行動を導く事ができました。


最後に

フォークリフトが搬送物までたどり着くための最善の方策を深層強化学習で解いてみました。

今回のフォークリフトのタスクは、カラーコーンや搬送物の場所が固定で3マスx3マスの小さなフィールドなので、単なる強化学習で学習することができます。

ただし、カラーコーンや搬送物の場所がランダムになったり、縦横のマスが多くなり大きなフィールドになると、膨大な学習量になるため、深層強化学習が必要になります。

興味のある方は、深層強化学習について勉強してみてください。

「詳しく話を聞いてみたい!」、「開発に携わりたい!!」など興味のある方は是非、アルチテック株式会社に気軽に来てみてください。

あなたをプロにすることを約束します。

アルチテックのインターンシップはハイレベル。

現役のシステムエンジニアがマンツーマン指導

市場価値が高い産業系システムエンジニアを目指そう!

インターンシップの募集はこちら

-人工知能
-,