【Python】Janomeで形態素分析してWordCloudで可視化(米津玄師・いきものがかり・スタレビ)【歌詞】

歌詞を可視化?

Qiitaで、こんな記事がありました。

https://qiita.com/yuuuusuke1997/items/122ca7597c909e73aad5

へー おもしろそう! 俺もヒットメーカーになれるんじゃないかな??なんて思ったりして。。 ってことで。。

Google Colabで試してみました。

で。。。ちょっと面白いことが。。

米津玄師

いきものがかり

スタレビ

あれ??おんなじジャン(笑)

そこそこ売れていると、かなりの曲数があるので。。 おんなじようになるんですねぇ~~ なんでじゃ???

この単語類を消して、もう一度、やってみないと、違いがあんまり分からないですねぇ~

Google Colabで動くサンプルをGitにおいておいたので、やってみたい方はそちらから。。

https://github.com/tom2rd/Googlecolabutils/blob/master/Lyrics_Janome.ipynb

ちなみに、歌詞をスクレイプするところは、少々時間かかるのですが、サーバーに負荷かけないように、そういう風になっています。

BERTとかJANOMEとかMECABとか

ちょっと前に、いまはSNSやMessenger、Slack系の会話のフローはできるんだけど、それを要約して残すとか、議論をまとめておくとかできてなくて。。それで、議論の再発明というか、もう一回議論しなくちゃいけなくなってたりするのが気になっていたんですよね。

議論に参加しなかった人にはわからないけど、誰が考えても、まぁ、その線にしか落ちないってことが沢山あるんだけど、そこに落ちるまで進まない。。まぁはなから何も考えなくて、自分のことだけしか考えてない人が多いので議論にならなかったりもするんだけど(笑)

もっとさっくりと。。会社のシステム更改とかでの、仕様とか、画面構成などの仕様なんかでも、一回決めたのに、また変えたいとか。。こっちの方がいいとか、あっちの方がいいとか。。前に議論したやん!ってこと、多く経験してて。。議論したことがうまく残って、議論に参加していない人も、その議論の内容を把握できるようにできる仕組みができないかな??

ってことを考えていた時があって。。

まずは文書要約できるといいなぁ~と。。BERTモデルとかXLNetとか調べたり

http://jalammar.github.io/

https://github.com/arXivTimes/arXivTimes

こんなのを読み漁っていたりしていました。

で。。

https://github.com/tom2rd/textmining

こんなリポジトリも作ってたりしたんですよね。

しかし。。この形態素分析とか。。きっとWord2VecからBERTになって、XLNetの時代になり、そのあと、人体性を含んだ言語表現が数値でできるようになると、なくなるんだろうな。。

もともと、言葉って人間が考えたもんだけど。。分析とか頭の中でしてないもんねぇ~

【Google凄いな】Word2Vec言語獲得 Doc2Vec文章獲得 Seq2Seq意味理解 BERT言語モデルの標準?【シンギュラリティ来るね】

投稿者 tom2rd

コメントを残していただけるとありがたいです

Loading Facebook Comments ...

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください