強化学習とは 文系おっさん向け

Reinforcement Learning.

皆さんこんにちは。最近とても寒いですが、風邪などひいてませんか? この記事を書いた日、午前中の気温がマイナス10℃、なんと窓からダイヤモンドダスト現象が見られました。とても幻想的で美しい光景で、南国出身のうちの嫁は大喜びでしたが。

寒かったですね。

GoodDay北海道さんのHPから

さて、最近はAIに目覚めて、いろいろ情報をあさっているKusunoko-CIですが、以前、教師あり・教師なし学習について説明しました。

今回はそこのところでお伝え出来なかった内容を、少し補足しておきたいと思います。

おさらい「機械学習、教師あり・教師なし学習」

ディープラーニングを含むAIの学習によって、AIは学びいろいろなことができるようになります。

AIの行う機械学習は、AIがいろいろ勉強して、ある課題に対する「判断能力」を向上していってもらうことを言います。

教師あり学習(Supervised Learning)

教師あり(Supervised Learning)は、これが正解だよと答えを見せながら、AIが特定のものを見分けていくことができるようになるんでした。AIが学んで、「これが猫だよ」、とか「猫じゃないよ、犬だよ」、ということが言えるようになっていきます。

これも前回触れませんでしたが、この教師あり学習にも二つあります。分類と回帰です。

分類(Classification)

これは例えば車の写真をいっぱい学んで、これトヨタ、これホンダ、これスズキ車なんて言い分ける、「分類分け」することができるAIモデル。

工場なんかで外観検査とかいいですね。これOK、こっちは傷ものとか。

回帰(Regression)

こちらは今あるデータから、こうなるんじゃないかという数値を当てに行くモデル。人口とか売り上げとか、大量のデータをもとに未来における状態を予測したいものがある時、たいへん便利ですね。

教師なし学習(Unsupervised Learning)

教師なし(Unsupervised Learning)は、これとは違って、特にこれが正解という答えは与えずに学んでいってもらいます。

で、AIが学んだ結果、人間に代わって、膨大なデータをグループに分けるという作業をやってくれるようになります。

ここでおもしろいのは、そのグループそのものが持つ意味というのは、AIは教えてくれません。あくまでグループに分けるまで、そのあとのことは人間が考えていかなくてはならないわけです。

そこができるようになると、いわゆる我々が夢見る「猫型ロボット」に近づいていけるのではと思うのですが。

ちなみに教師なしは、分類に分けて、お客さんの特徴なんかを調べるマーケティングで使われたりします。

機械学習メリット

AIが、大量かつ複雑なデータを分析し、正確な結果をより速く出してくれるようになれば、私たち人間が得られるメリットは計り知れません。

自動運転なんか考えるとわかりやすいですね。

道路状況という「大量かつ複雑なデータを分析し、正確な結果をより速く出して」、安全で快適な自動の運転が可能になるわけです。

夢があるなー、機械学習!

強化学習Reinforcement Learning

さて今回のメインはこの強化学習です。これも現在の機械学習の代表的なものの一つです。

前回、「機械学習、教師あり・教師なし学習」を調べて理解してまとめて、ぶっちゃけ力尽きてしまいました。

この強化学習は、すでにお話しした教師あり学習と似ていて、「答え」を見せながらの学習になります。

ただし、教師あり学習が、単純に一個の答えを与えられて、正解・不正解を導き出しているのに対し、強化学習はAIが良い選択をしていくことを学んでいってもらう学習方法になります。

例えば、何度もご紹介している囲碁のAI「AlphaGo」。

ゲームに勝つという目的は一つですが、そこに至る道筋は数限りなくあるわけですよね? もう相手の出方によって、それこそ選択する手も、その都度その都度最善のものを考えていかなくてはならない。

このような条件下、AIが正しい選択をすれば「ご褒美」を与えて、間違った選択をすれば「罰」を与えることで、AIに正しい選択をするという行為を学んでいってもらうわけですね。

この辺の概念は、人間の学習における「行動原理マネジメント」と同じです。いいことをすればいいことが起きて、正しくないことには罰。

使用範囲はやっぱりゲームとか。あとは自動運転なんかも。

強化学習よく使う言葉

Get KDnuggets, a leading newsletter on AI, Data Science, and Machine Learning

ちなみに、この強化学習を語る時、よく出てくる単語が、「エージェント」、「行動」、「環境」です。

エージェントは、まさにこの課題を学んでいるコンピューター。

そしてこの課題を達成するために、エージェントはトライ&エラーの行動をとっていきます。そうした中、環境から報酬や罰を受けることで、正しい選択をしようと徐々に学習していく。

その結果、最適解を導くことを学習し達成するわけですね。

ここで、一つ注意しておかなくてはいけないのが、この報酬や罰を、あまり短期的な目線で与えないということ。

例えば、株の自動売買マシーンを作りたいとして、短期的な勝ち負けばかり気にしてトータルでマイナスだと意味はないですからね。長期的な視点をもってもらうため、学習を組む方も長期的な視野で考えなくてはいけない。

ほんと子育てそっくり。

まとめ

さて今回は、前回の反省を踏まえ、かなりわかりやすく機械学習を説明できたのではないかと思います。いかがでしでしょうか?

ちなみに上の表は、株式会社システムインテグレータさんのところの図をもとに作成しました。どの学習が、どういったビジネスに使われるかをまとめたものです。

前回ちょっとディープなところに入り込みすぎましたので、あくまで今回は、文系おっさん向けを目標に。

こうしてざっくり見渡してみると、AIって何か結構すっきりしてきたのではないでしょうか?

我々文系おっさんは、何がどうなっているかの詳細な部分は、実は知らなくていいのではと思います。

パソコンやネットの細かな構造は知らなくても、こうやって使って仕事で来てるわけですからね。大事なことは、「どうやって使っていくか」です。

AIプロデュース力、養っていきましょう! ではまた!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA