「うまぴょい伝説」を形態素解析して分析してみたけど、やっぱりよくわからない件(Python colab mecab)
■Pythonの勉強をしていて、対象のテキストを形態素解析して分析してみたらおもしろそうだと思い、
ウマ娘を代表する曲「うまぴょい伝説」を分析してみたところ、
意味がわからなかったので記事を書いておこうと思います。
意味はわからないのですが、「ああ、うまぴょい伝説だな」という「ふいんき」は感じることができました。
■形態素解析の方法と、そのビジュアル化はこちらのサイトを参考にしました。
mecabの辞書として「mecab-ipadic-NEologd」が使われていますが、
「ウマ娘」を名詞としてきちんと認識しているところに感動しました!
てっきり「ウマ」「娘」と分かれると思っていたため。。。
下記サイトで
Mecabのデフォルト辞書「mecab-ipadic」は、新語に対してそれほど精度が高くない。
そこでオススメするのが「mecab-ipadic-NEologd」という辞書の仕様。
「mecab-ipadic-NEologd」はMecabで使えるシステム辞書の一つで、
更新頻度が高いため新語に強いのが特徴。
と指摘されているように、新語に強い辞書のようですね。
ちなみに、「ゴールドシップ」もきちんと名詞で認識していたため、
ある程度知名度のある馬であれば登録されていると思ってよさそうですね。
■さて、そして実際に分析、
手っ取り早くビジュアルでわかりやすいワードクラウド化してみたところ、
こんな結果となりました。
うん、「ふいんき」は伝わりますね。
「うまぴょい伝説やっぱり意味わからんな」というのが再確認できます。
名詞だけにしたのと、ノイズ処理など調整をしていないというところもあると思いますが、
そもそもの歌詞が形態素解析に向いてないですね。適正Gです。
■比較として、「GIRLS’ LEGEND U」の歌詞も、
形態素解析してワードクラウド化してみます。
こちらは名詞、形容詞、動詞を対象としているのですが、
テーマ曲、という感じの歌詞を感じられますね。
少なくとも「ばきゅんぶきゅん」だの「ずきゅんどきゅん」など、
意味がわからない歌詞で構成されていないことはわかります。
■以上、うまぴょい伝説の形態素解析してみた結果でした。
やる前からわかっていた話でしたが、
やはりある程度意味がわかるテキストでないと、
形態素解析もなかなか難しいということがわかりました。
Pythonの勉強を兼ねて、ぜひうまぴょい伝説を分析してみてください。