ライトノベルの感想をDoc2Vecで解析　可視化編 - とある三流プログラマーの覚書

はじめに

ライトノベルの感想をDoc2Vecで解析では、ラノベの感想をgensimのDoc2Vecを使って、２００次元のベクトルデータとして表現しました。

ベクトルデータなので、類似度の計算ができましたが、２００次元といわれても、われわれにはイメージできません。

そこで、今回は、２００次元のベクトルを主成分分析を使って２次元に変換して、関係性を可視化しました。

今回は、『このライトノベルがすごい！２０１６』に載っていた、2015年度BEST６０のタイトルを使います。

「ライトノベルの感想をDoc2Vecで解析」で求めた、２００次元ベクトルのデータを、主成分分析で２次元ベクトルデータに変換します。

主成分分析には、機械学習ライブラリscikit-learnのPCAクラスを使いました。

６０タイトルの２次元ベクトルデータをmatplotlibを使って２次元のマップとして描画しました。

f:id:pgsaku:20160515004909p:plain

左の真ん中あたりは、日常系ラブコメ？が集まっているっぽいですね。

下よりの中央は、ファンタジー＋バトル要素でしょうか。

なんとなく、感想が近いもので、マップ化されているような気はします。

感想をもとに、ラノベをマップ上に表現することには成功したっぽいです。

でも、教師なし学習なので、どんな基準でマップ化されたのかはよくわからないです。

シリアス⇔コメディとか、リアル⇔ファンタジーみたいな人間にわかりやすい軸でマップ化できたら面白いんですけどね。