y_uti のブログ

統計、機械学習、自然言語処理などに興味を持つエンジニアの技術ブログです

2012-01-01から1年間の記事一覧

続 IBM Model 1: null トークンを入れる

先日 IBM Model 1 を実装してみましたが、f 側の各文には null トークンを追加する必要がありました。Kohen 先生のスライドにある "Inserting Words" のところです。そんなわけで、プログラムを少し修正します。コーパスを読み込んだ後、f 側の文に null ト…

IBM Model 1 を SQL で実装

IBM Model 1 を SQL で実装してみます。RDBMS には PostgreSQL を使いました。まず、コーパスを格納するテーブルを作成します。position_id は文中での出現位置を表す値のつもりです。これは IBM Model 1 では不要なのですが、気分的に入れておきました。 CR…

IBM Model 1 の実装

統計機械翻訳に関連して、このページに置かれている Koehn 先生のスライドを読んでみています。 http://www.statmt.org/book/Word-Based Model のスライドに IBM Model 1 の説明が分かりやすく書かれていたので、スライド 29 ページの擬似コードを自分でも書…

夏目漱石なランダム文生成

せっかくランダム文生成ができたので、コーパスを変えてもう少し遊んでみました。青空文庫から『吾輩は猫である』を使ってみようと思います。 $ wget http://www.aozora.gr.jp/cards/000148/files/789_14547.html文字コードがシフト JIS なので変換しておき…

NLTK でランダム文生成

Python の NLTK を使って、ランダム文生成で遊んでみました。学習に使うコーパスが必要なので wikipedia のデータを貰ってきます。「要約」が一番小さそうなので、それにしました。それでも 1.2GB くらいあります。 $ wget http://dumps.wikimedia.org/jawik…