y_uti のブログ

統計、機械学習、自然言語処理などに興味を持つエンジニアの技術ブログです

2013-05-01から1ヶ月間の記事一覧

サンプリングのばらつきによる同一文書間の Hellinger 距離

LDA はサンプリングによってトピック分布を推定するので、同じ文書でも実行するたびに異なる分布が推定されることになります。このばらつきがどの程度の大きさになるのかを同一文書間の Hellinger 距離として調べてみます。実験の手順は次のとおりです。まず…

トピック数による Hellinger 距離の分布

前回は、Hellinger 距離を利用して類似の記事を抽出してみました。基準にする記事と他の各記事との距離をそれぞれ計算して、距離の小さなものほど似ているということでした。ところで、この Hellinger 距離は全体としてどのような分布になっているのでしょう…

Hellinger 距離による記事間の類似度計算

LDA の用途の一つとして、文書間の類似度の計算があります。今回はこれを試してみたいと思います。前回の記事で参考にした Blei 先生の教科書によると、文書間の類似度は Hellinger 距離を使って計算できるようです。以下のようなコードを書いて試してみます…

Term-score

前回に続き LDA の話題です。前回は、コーパスからトピックモデルを学習し、コーパスに含まれる記事が分野ごとにトピックに分かれる様子を見てみました。今度は、それぞれのトピックからどのような単語が生成されやすいかを調べてみたいと思います。トピック…

LDA による文書集合のクラスタリング

潜在ディリクレ配分法 (Latent Dirichlet Allocation) による文書集合のクラスタリングを試してみました。LDA の実装は探せば色々と出てくるのですが、今回は plda を利用して実験します。plda のソースコードは下記の URL からダウンロードできます。 http:…