Doc2Vecでライトノベルの内容紹介を解析 - とある三流プログラマーの覚書

はじめに

前回、ラノベの内容紹介をトピックモデルで解析しました。

同じデータを今度はDoc2Vecにかけて遊んでみます。

Doc2Vecとは、文書(Document)のベクトル表現で、文書同士の類似度を算出したり、文書間で足し算や引き算ができるらしいです。

これで好みの小説を探せたりできたら面白いですね。

gensimにDoc2Vecモジュールがあるので、これを使います。

とりあえず、メジャーどころの「ソードアート・オンライン」と類似度が高い小説を抽出しました。

あまり似ていない…

期待していた結果にはなりませんでした。

チューニングの問題というよりは、内容紹介くらいの短い文書だと、わかりやすい類似度は出てこないような印象です。

もう少し長い文書で次回は試してみたいですね。