2013-05-01から1ヶ月間の記事一覧
LDA はサンプリングによってトピック分布を推定するので、同じ文書でも実行するたびに異なる分布が推定されることになります。このばらつきがどの程度の大きさになるのかを同一文書間の Hellinger 距離として調べてみます。実験の手順は次のとおりです。まず…
前回は、Hellinger 距離を利用して類似の記事を抽出してみました。基準にする記事と他の各記事との距離をそれぞれ計算して、距離の小さなものほど似ているということでした。ところで、この Hellinger 距離は全体としてどのような分布になっているのでしょう…
LDA の用途の一つとして、文書間の類似度の計算があります。今回はこれを試してみたいと思います。前回の記事で参考にした Blei 先生の教科書によると、文書間の類似度は Hellinger 距離を使って計算できるようです。以下のようなコードを書いて試してみます…
前回に続き LDA の話題です。前回は、コーパスからトピックモデルを学習し、コーパスに含まれる記事が分野ごとにトピックに分かれる様子を見てみました。今度は、それぞれのトピックからどのような単語が生成されやすいかを調べてみたいと思います。トピック…
潜在ディリクレ配分法 (Latent Dirichlet Allocation) による文書集合のクラスタリングを試してみました。LDA の実装は探せば色々と出てくるのですが、今回は plda を利用して実験します。plda のソースコードは下記の URL からダウンロードできます。 http:…