【Open AI】AIもオープンになってきて・・強化学習よりも進化戦略が優れているらしい【evolutionary strategies】

歴史は繰り返す？(笑)
強化学習のスケーラブルな代替手段としての進化戦略
Disrill:マシーンラーニングの民主化？
声の次のインターフェース
研究を研究として行うか？ビジネスとして行うか？
いいね:
関連

歴史は繰り返す？(笑)

この本の感想文でも紹介しましたが、今の機械学習は第二？第三次ブームで・・

【読書感想文】ゼロから作るDeep Learning　Pythonで作るんだって・・・【ラジコン自動運転？】

以前のブームの時も、バックプロバケーションの後は、GA（遺伝的アルゴリズム）やES（進化戦略）とかが、ブームになりました。バックプロバケーションやDeep Learningが、脳の構造を模したものであるとすると、強化学習（Reinforced Learning)とか、GA（遺伝的アルゴリズム）,ES（進化戦略）などは最適化問題を解くためのモチベーションにあたるものですね。

Deep Q network（DQN）の強化学習が流行ってたと思ったら、次は、いよいよ・・・ESとかみたいです。。

ちなみに、DeepLearningを有名にした論文２編はこちら

強化学習のスケーラブルな代替手段としての進化戦略

イーロンマスクなどが出資しているOpen AIのブログに、強化学習だとスケールしにくいけど、進化戦略だと並列化が可能だよ！っていうブログエントリーが乗っかってます。

https://blog.openai.com/evolution-strategies/

超要約すると・・・　この上の図が早く計算できるよってことで(笑)

ES（進化戦略）の実装および拡張は容易です。80台のマシンと1,440個のCPUコアを搭載したコンピューティングクラスタ上で実行することで、3D MuJoCoヒューマノイドウォーカーを10分でトレーニングすることができます（32コアのA3Cは約10時間かかります）。720コアを使用して、AtariのA3Cと同等のパフォーマンスを得ることができます。トレーニング時間を1日から1時間に短縮します。

３DMujoCoっていうのは、ヒューマノイドの物理シミュレータです。

A3Cっていうのは、非同期強化学習のようで、強化学習のアルゴリズムを並列計算できるように非同期にしているもののようです。

RL（強化学習）は、Atariゲームだと、画面自身を入力に、ゲームのボタンを出力にしたニューラルネットを用意して、学習用に、うまく行った場合、行かなかった場合と勝ち負けの学習セットを用意して、それにランダムノイズを追加して、バックプロバケーションで計算します。

ES（進化戦略）は、実際はぜんぜん生物学的な進化と関係ない最適化方法です。（これ超訳です）ニューラルネットの重み付けパラメータをガウス雑音として、最小化するアルゴリズムのようです。局所解を得る焼きなましっぽいアルゴリズムですね。

学習する関数面が、上の図のような凹凸をもつとして、白い矢印に、黒い点のような雑音パラメータを入れて、計算を進めていくと、赤い極小点を計算できる。ってことですね。。

この様子は、

https://github.com/karpathy/randomfun/blob/master/es.ipynb

で、実行できるそうです。コード見ると、かなり短く記述できますね。ってこれニューラルネットじゃない(笑)

詳しくは、この論文を見ろとのこと(笑)

ES派の人は、このGitから始めるといいとのことです。

https://github.com/openai/evolution-strategies-starter

まぁRLとESで張り合ってますよ！ってことですね(笑)

なんかGAも含めて沢山のエボリューションが起こっているみたいです。

https://en.wikipedia.org/wiki/Neuroevolution

昔の繰り返しより早く起こっている(笑)

Disrill:マシーンラーニングの民主化？

OpenAIも凄いなって思うのは、A3CとESとかどんどんプログラムのソースコードと一緒に議論されて、実際に有益なことを情報発信してブログで議論していってます。論文もこのサイトから誰でもが見れる。

https://arxiv.org/

最近、偽ニュースとかPost　Truthとか言われるようになっていますが、こういうコミュニティというか、論文の査読が重要とされるようになっているようです。そして、発表方法も、表現方法も再発名も行われているっていうのがすごいです。論文って長らく紙やPDF媒体で、しかも査読に１年くらいかかるというものでした・・よね。

https://research.googleblog.com/2017/03/distill-supporting-clarity-in-machine.html

http://distill.pub/

これは、機械学習の論文を、もっとインタラクティブに、もっと迅速に、そしてもっとわかりやすくしよう！っていう取り組みのようです。Distillって蒸留っていう意味のようです。どぶろくを蒸留して焼酎にするみたいな感じなのかな？(笑)

最近、論文もオープンですよね。IEEEはまだオープンじゃないけど、みんなそこにはもう出さない。。日本の学会で本当にこういう取り組みしているでしょうか？どれも会員向けだけにしかオープンにしないし、査読時間短縮なんかぜんぜん考えていないですね。マルチメディア化って昔いろいろ議論されたけど、ぜんぜん進んでない。

http://www.r2d3.us/visual-intro-to-machine-learning-part-1/

確かに、こんな感じで、とてもビジュアルに表現することが簡単になっているけど、紙の媒体を前提としていると、伝えられることが本当に少ないってことがよくわかりますよね。

声の次のインターフェース

AIと言えば、その応用としてのUI（User Interface）がありますが、去年は声のインターフェースが流行ってました。そしてもう１強時代に入ってきました(笑)　普通は乱立して、その後に収れんなのですが、もういきなり１強です(笑)

AmazonのAlexaが、それですね。　ところが、声よりも脳に直結しちゃおうっていうベンチャーが立ち上がっています。またイーロンマスクですけど。。

http://wired.jp/2017/03/29/neuralink/

これは面白いですね。もともとは医療用のセンサのようですが、人工知能を人間に移植しようと。。　超研究っぽいですが、これビジネスなんですよ！

研究を研究として行うか？ビジネスとして行うか？

いろいろ賛否両論がありますが、上記の取り組みは、全部研究ですね。でもこの研究自体をビジネスとしてやっている。ビジネスという目的をはっきりさせて研究を進めている。だから成果が出てくる。研究を行っている人のモチベーションも高くなる。

もう勝負あったように思うんですよね。研究を研究としてやるんじゃなく、ビジネスとして直結させてやらないと、絶対勝てないと思うんですよねぇ。。

研究の民主化がどんどん起こっている。。　（ネットの民主化はまた別の記事で・・・(笑)

New

【Open AI】AIもオープンになってきて・・強化学習よりも進化戦略が優れているらしい【evolutionary strategies】

歴史は繰り返す？(笑)

強化学習のスケーラブルな代替手段としての進化戦略

Disrill:マシーンラーニングの民主化？

声の次のインターフェース

研究を研究として行うか？ビジネスとして行うか？

いいね:

関連

投稿者 tom2rd

コメントを残していただけるとありがたいです

コメントを残すコメントをキャンセル

見逃しています

問い合わせ

環境・エネルギー・エコ情報RSS

F1　RSS

【読書感想文】未来の働き方を考えよう　人生は二回、生きられる

【Open AI】AIもオープンになってきて・・強化学習よりも進化戦略が優れているらしい【evolutionary strategies】

歴史は繰り返す？(笑)

強化学習のスケーラブルな代替手段としての進化戦略

Disrill:マシーンラーニングの民主化？

声の次のインターフェース

研究を研究として行うか？ビジネスとして行うか？

いいね:

関連

投稿者 tom2rd

関連投稿

【SDR】USRP・HackRF・GnuRadio等の情報源など【ソフトウェア無線】

【SPICE】C（コンデンサ）って容量だけじゃなく、ESR・ESLっていう寄生抵抗・寄生インダクタンスとかあるのよね【Murata】

【KiCAD】STEPファイルに落とす時に、ビアなどもモデルに入れる場合【FreeCAD】

コメントを残していただけるとありがたいです

コメントを残す コメントをキャンセル

見逃しています

問い合わせ

環境・エネルギー・エコ情報RSS

F1 RSS

【読書感想文】未来の働き方を考えよう 人生は二回、生きられる

コメントを残すコメントをキャンセル

F1　RSS

【読書感想文】未来の働き方を考えよう　人生は二回、生きられる