【Google凄いな】Word2Vec言語獲得 Doc2Vec文章獲得 Seq2Seq意味理解 BERT言語モデルの標準?【シンギュラリティ来るね】

PageRankから始まったんだろうな。。

【行列計算】Googleの機械学習のTensorflowも、SEO PageLankを計算するのが最初だったのかなぁ?【ページランク】

ここでも書きましたが。。 Googleは、HPをクロールしていろんな言語のいろんな文章を理解して、検索でほしいものを、提供しようとしています。それもかなり愚直に。。

日本のえらい先生で、AIは文章が理解できない。人間も文章が理解できないって、いってましたが。。そろそろできそうなところまで進んできたような気がします。

で。。

仕事で、調査関係をすると、結構クロールもどきみたいなことをしますし、その要約を作ったりします。ほとんどは、手作業ですけどね。だから。。こういうのも作ってあったりします。arXivから論文を検索してきて、それを日本語に変えて出力するようなJupiterNoteBookとか。。ちょっと便利です(笑)

https://github.com/tom2rd/arXivSearchPython

人間の歴史は、ほぼ、どれだけ道具をうまく使いこなせたか? 資本となるものを獲得できたか?で、きまってきていますね。日本人ももっと道具としてこういうのをアレルギーをおこさずに使えばいいのになぁ~って思います。

で。。ちょっと、知り合いになった人たちと、こないだから、議論をするサイト(guest synclon3)を構築したりして、その中で、ファシリテートとか、要約が作られるといいのにな。。って前から思っていて、これは、議論をすることの重要性とか、議論して合意形成するためには、それぞれの人の価値観・背景がわかっていないと、ある時点で議論を打ち止めた時の結論というものが得られないのではないか?ということと、日本人がこのまま駄目になるのは議論がきらいだからじゃないかな?って思っていて。。何かできないかな?って思っていて、議論をできるベースを作ってみたいなと。。

で、技術要素で足りていないのが、議論(英語だと、DiscussionよりもDialogueが近いのかも)の要約がまだいいやつできてないなと。。

Googleくんでは、AutoMLやNatural Language APIで、感情分析までできている。要約ももうすぐ。。ってところでしょうね。

https://cloud.google.com/natural-language/?hl=ja

https://cloud.google.com/natural-language/?hl=ja

これらは、使いみちとしては、広告の効果を上げるというKPI、検索の精度を上げるというKPIで動いているんでしょうね。

シンギュラリティはやっぱり起こる?

Machine Learning (ML)やAIが汎用な人工知能をもてないって考えている人がまだまだ多いと思うんですが、Word2Vecが出てきた時に、これはヤバイな。。って思ってそれからGoogleの研究を少しだけ注意してみています。

Word2Vecは簡単にいうと、たくさんの文章から、単語の意味を、一緒に使われる単語のベクトルとして、数値で表現する技術です。文字・単語を数値で表したということがすごくて、これで、機械学習とかが楽になるだけじゃなく、ぼくらの脳の中で、行われている言葉の概念形成にとても近いって思うんです。 脳に文字かけませんからね。正確には、単語をベクトルで表現して、単語と単語の類似度を測ることができるんですが、これは、「同じ」「違う」という概念を獲得したと言っていいと思うんです。

この概念で、Doc2Vecという同じような方法で、文章の類似度を学習できるようになり、同じような文章だということが、わかるようになった。それが、Seq2Seqというもので、違う言語間での類似度も計算できて、その学習したMLのネットワークを使って、新しい文章を返せるようになっていました。

今度は、文章の流れを時系列に学習させて、文脈も理解させようとしています。それがVHREDですね。 このVHREDだと、原理的には、ある人の会話をず~っととっておいて学習させると、ほぼその人が答えるように、答えを返すようになるでしょうね。

ここまで来ると、文章の意味理解ができるし、要約もできる。文章の組を作って、あとは学習させるだけ。TPUがたくさんいる訳ですね。

まだ、要約や、ファシリテーションまでは届いていませんが、もう少しのところにきていそうです。

この文章の組を作る多言語のモデル化の仕組みとして、BERTが最近でてきています。

これがいろいろ完成すると、機械が、文脈を理解できるようになって、いろんな変化が起こり始めるでしょうね。

シンギュラリティは2045年と言われていますが、Word2Vecは2013年発表で、Seq2Seqが2017年なので、これから指数的に行くとすると。。今年でしょうね。。Google社内ではもうシンギュラリティは起こっているのかもしれませんね。

怖くもあり、わくわくするところでもありますね。

要約について、Google Colabで動くJupiter Notebookのサンプル作っておきました。

https://github.com/tom2rd/textmining

下のリンクにあるコードをコピペしただけですが。。 ちょっと遊べると思います。

文章要約についての、リンク集

日本でもがんばってる人。。たくさんいるけど。。完全に4年くらい遅れている感じですね。

https://github.com/topics/natural-language-understanding

https://github.com/topics/natural-language-processing

https://google.github.io/seq2seq/

https://tfhub.dev/

https://yoheikikuta.github.io/bert-japanese/

http://nlp.ist.i.kyoto-u.ac.jp/index.php?BERT%E6%97%A5%E6%9C%AC%E8%AA%9EPretrained%E3%83%A2%E3%83%87%E3%83%AB

https://pypi.org/project/text-vectorian/

https://www.inoue-kobo.com/

https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb#scrollTo=wHQH4OCHZ9bq

https://qiita.com/gacky01/items/26cd642731e3eddde60d

https://tech.mof-mof.co.jp/blog/seq2seq.html

https://github.com/higepon/tensorflow_seq2seq_chatbot

Googlecolabでもできるよ。

https://www.pytry3g.com/entry/pytorch-seq2seq

ここにWord2VecからVHREDまでが詳しくのってます。

https://qiita.com/halhorn/items/646d323ac457715866d4

HED-Dialog

https://github.com/julianser/hed-dlg-truncated

番外編 ここいろいろ乗ってる

https://catindog.hatenablog.com/

Bot Slack ノンコード

https://zuvuyalink.net/nrjlog/archives/category/azure

 

投稿者 tom2rd

コメントを残していただけるとありがたいです

Loading Facebook Comments ...

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください