ブログ 採用情報

【深層強化学習】(AI)人工知能/機械学習の分類と強化学習について

こんにちは。アルチテックの北中です。

アルチテックは産業系システムを開発している会社ですが、新しい取り組みの一つが産業系システムにAIを活用したいと考えています。
特に注目しているのが深層強化学習で、強化学習と深層学習(多層ニューラルネットワーク)の手法を組み合わせた物です。

そこで、何回かにわけてアルチテックのAIにおける取り組みと、実際のビジネスや研究についてお話しようと思います。

まずは人工知能(AI)/機械学習の分類と強化学習について記事を投稿します。

人工知能/機械学習の分類

今なお注目され続けているテクノロジーのAI、ネットでもテレビでも新聞でも、様々なところでAIという言葉が飛び交っています。

AIとは、Artificial Intelligenceの略で、日本語での人工知能と同じ意味です。AIとは一般的に「コンピュータを使って人間の知能の働きを人工的に実現するもの」で、幅広い範囲のものがAIと呼ばれています。

AIの代表的な分野となっているのが、機械学習で教師あり学習、教師なし学習、強化学習の3つに分類されています。

機械学習とはコンピュータ(機械)にデータを与えて学習させる手法で、与えられたデータからコンピュータ自身が何らかのルールやパターンを見つけさせます。人がプログラムなどで「ルール」を書くのではなく、コンピュータ自らがデータに基づき「ルール」を学習します。

教師あり学習

機械学習で最もオーソドックスなのが、教師あり学習です。教師あり学習は入力と出力のペアデータが与えられ、そのデータからコンピュータが入力から出力へ変換する方法を学習します。

教師あり学習は、「この入力に対して、このように出力する」と教えるための教師データを必要とします。一般的に教師データは人がひとつひとつのデータに対して正解ラベルを用意する必要があります。

教師なし学習

教師なし学習は教師データが存在しません。教師なし学習の目的は、データに潜む構造やパターンを見つけることです。

例えば、グループ分けや特徴抽出、次元削減などがあります。

強化学習

強化学習(Reinforcement Learning)は、教師あり学習や教師なし学習とは異なる枠組みで、エージェントと環境が相互作用を繰り返して学習します。

エージェントとは、ロボットのように行動する主体のことです。エージェントは、何らかの環境に置かれ、環境の状態を「観測」し、それに基づき「行動」します。その結果として環境の状態が変化し、エージェントは環境から「報酬」を受け取ります。そして、変化した環境の状態を「観測」して…を繰り返し、報酬の総和が最大になる行動パターンを見つけます。つまり、最適な行動を身につけることができます。

例えば、囲碁で世界最強の棋士と言われていたイ・セドル氏にコンピュータが勝利するという衝撃的な出来事が2016年にありました。このコンピュータのアルゴリズムが「AlphaGO」と呼ばれる強化学習を応用したものです。

それ以外に「スーパーマリオブラザーズ」や「シューティングゲーム」などのゲームをAIにプレイさせて、クリアするAIチャレンジなども強化学習の技術が使われています。

最後に

簡単ではありますが、人工知能/機械学習の分類と強化学習についてまとめてみました。

興味のある方は、強化学習についてネットや書籍で調べてみて、実際に動かしてみてはどうでしょうか。
コンピュータが試行錯誤して、迷路やゲームを本当に解いてくれます!!

「詳しく話を聞いてみたい!」、「開発に携わりたい!!」など興味のある方は是非、アルチテック株式会社に気軽に来てみてください。

-ブログ, 採用情報