青空文庫の小説をテキストマイニング【夏目漱石:我輩は猫である】

2015年9月7日

f_f_object_8_s128_f_object_8_2bg
世の中のありとあらゆるデータを集めて、いろんな方法で分析してマーケティングに利用したり世の中の動向をさぐるビジネスが最近盛り上がっています。で、僕も勉強している訳ですが、なかなか難しいのです。なんかサクッとこんな感じだよってイメージを掴めるものを探していたら、テキストマイニングが無料で体験できるサイトを見つけたので遊んでみました。

 

スポンサーリンク

テキストマイニングが無料でできる!

テキストマイニングでは、文字を単語や語句で区切り、その数を集計したりそれぞれの関連性などを現したりと、高度な技術が必要です。でもこのサイトを使えば誰でも簡単にその作業を行うことができます。

テキストマイニング 無料ツール by ユーザーローカル

 

元ネタがないので文豪にお借りしました

分析は無料でできるけど分析する元ネタがなかったので、ちょうど手元にあった夏目漱石さんの「我輩は猫である」で実験することにしました。テキストマイニングのサイトを下にスクロールしていき「テキストファイルを解析」を選択します。

post−1303

実験材料

著者:夏目漱石
タイトル:我輩は猫である
文字数:約37万字

 

その結果は意外にも・・・

post−1303_02指定のテキストファイルをアップロードすると、以外と早く結果が表示されます。この作品の主人公、「猫」は自由奔放勝手気ままに生きているように思っていたのですが、テキストマイニングの結果を見ると、どうやら少し違うようです。左側のグラフからは「主人」が言ったり見たりしている行動を常に観察している姿が見られ、右側の単語出現頻度を見ると自分よりも主人を多く取り上げています。人間なんて勝手な生き物だ、なんて嘆きつつも、主人のことをいつも気にしていたのかもしれません。

 

まとめ

そんなに深い意味もなく試しにやってみた文豪テキストマイニングですが、小説を読んでみて心に残る印象とは異なる、別の見方を探る面白さが隠されていました。この結果を受けて実際に小説を読んでみるというのもいいかもしれません。また機会があれば別の作品で試してみたいと思います。

もしもこの小説に興味を持って読んでみようかなと思った方は、青空キンドルでPDFに変換してKIndleで読むのがオススメです。方法はこちらの記事をご参照ください。特に変換ツールも必要ないですし、Kindle本体を持っていなくてもPCでも読めますのでお気軽にどうぞ。

スポンサーリンク