【Python】Janomeで形態素分析してWordCloudで可視化(米津玄師・いきものがかり・スタレビ)【歌詞】

スポンサーリンク
広告

歌詞を可視化?

Qiitaで、こんな記事がありました。

【Python】嵐の歌詞をWordCloudで可視化して、結成20年でファンに伝えたかったことを紐解いてみた - Qiita
きっかけ 嵐の活動休止まで残り一年ですね。スケスケ衣装の登場からなんともう20年。マルチで活躍する国民的アイドルは結成20年でファンに何を伝えたかったのか?直接お会いして伺いたいとこだが、そんな訳には。なので「歌詞を可視化」して...

へー おもしろそう! 俺もヒットメーカーになれるんじゃないかな??なんて思ったりして。。 ってことで。。

Google Colabで試してみました。

で。。。ちょっと面白いことが。。

米津玄師

いきものがかり

スタレビ

あれ??おんなじジャン(笑)

そこそこ売れていると、かなりの曲数があるので。。 おんなじようになるんですねぇ~~ なんでじゃ???

この単語類を消して、もう一度、やってみないと、違いがあんまり分からないですねぇ~

Google Colabで動くサンプルをGitにおいておいたので、やってみたい方はそちらから。。

tom2rd/Googlecolabutils
Google colab tips. Contribute to tom2rd/Googlecolabutils development by creating an account on GitHub.

ちなみに、歌詞をスクレイプするところは、少々時間かかるのですが、サーバーに負荷かけないように、そういう風になっています。

BERTとかJANOMEとかMECABとか

ちょっと前に、いまはSNSやMessenger、Slack系の会話のフローはできるんだけど、それを要約して残すとか、議論をまとめておくとかできてなくて。。それで、議論の再発明というか、もう一回議論しなくちゃいけなくなってたりするのが気になっていたんですよね。

議論に参加しなかった人にはわからないけど、誰が考えても、まぁ、その線にしか落ちないってことが沢山あるんだけど、そこに落ちるまで進まない。。まぁはなから何も考えなくて、自分のことだけしか考えてない人が多いので議論にならなかったりもするんだけど(笑)

もっとさっくりと。。会社のシステム更改とかでの、仕様とか、画面構成などの仕様なんかでも、一回決めたのに、また変えたいとか。。こっちの方がいいとか、あっちの方がいいとか。。前に議論したやん!ってこと、多く経験してて。。議論したことがうまく残って、議論に参加していない人も、その議論の内容を把握できるようにできる仕組みができないかな??

ってことを考えていた時があって。。

まずは文書要約できるといいなぁ~と。。BERTモデルとかXLNetとか調べたり

Jay Alammar – Visualizing machine learning one concept at a time.
Visualizing machine learning one concept at a time.
arXivTimes/arXivTimes
repository to research & share the machine learning articles - arXivTimes/arXivTimes

こんなのを読み漁っていたりしていました。

で。。

tom2rd/textmining
Contribute to tom2rd/textmining development by creating an account on GitHub.

こんなリポジトリも作ってたりしたんですよね。

しかし。。この形態素分析とか。。きっとWord2VecからBERTになって、XLNetの時代になり、そのあと、人体性を含んだ言語表現が数値でできるようになると、なくなるんだろうな。。

もともと、言葉って人間が考えたもんだけど。。分析とか頭の中でしてないもんねぇ~

【Google凄いな】Word2Vec言語獲得 Doc2Vec文章獲得 Seq2Seq意味理解 BERT言語モデルの標準?【シンギュラリティ来るね】
PageRankから始まったんだろうな。。 ここでも書きましたが。。 Googleは、HPをクロールしていろんな言語のいろんな文章を理...

コメントを残していただけるとありがたいです

Loading Facebook Comments ...
%d人のブロガーが「いいね」をつけました。