『はてなキーワードを使ってigo-ruby(MeCab)用の辞書をナウい感じにする』に4年ぶりの続編です。
igo-ruby はJava製の形態素解析器 Igo のRuby版で、4年前から動いている僕のtwitter botでも使っている。
4年前の記事では『人工知能』や『ニコニコ動画』といった新語をigo-rubyでナウく分かち書きするために、Wikipediaタイトルやはてなキーワードのデータを使って独自に辞書をカスタマイズした。
今回はもっと簡単に、継続的にメンテナンスされている新語辞書 NEologd を使って同様のことを実現する。もはや最近はこっちのほうが自然なアプローチですなぁ。
NEologdのビルド
リポジトリを取ってきて、手順通りビルドする:
$ cd /path/to/neologd/mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n
すると build/mecab-ipadic-2.7.0-20070801-neologd-YYYYMMDD
といったディレクトリができる。
これが4年前の記事で自前で生成した辞書を置いた mecab-ipadic-2.7.0-20070801
というディレクトリに対応していて、以後の手順は全く変わらない。外部データを整形して独自にコストを計算していた手間をNEologdが肩代わりしてくれた形。感謝〜。
辞書生成
igo.jar
を取ってきて:
$ wget 'http://osdn.jp/frs/redir.php?m=jaist&f=%2Figo%2F52344%2Figo-0.4.3.jar' -O igo.jar
igo用辞書 ipadic-neologd
をつくる:
$ java -cp igo.jar net.reduls.igo.bin.BuildDic ipadic-neologd /path/to/neologd/mecab-ipadic-neologd/build/mecab-ipadic-2.7.0-20070801-neologd-YYYYMMDD utf-8
オリジナルのIPA辞書のエンコーディングがEUCだったのに対し、NEologdはUTF-8であることに注意。
ためす
require 'igo-ruby'
tagger = Igo::Tagger.new('/path/to/ipadic-neologd')
p tagger.wakati('人工知能')
# ["人工知能"]
p tagger.wakati('ニコニコ動画')
# ["ニコニコ動画"]
p tagger.wakati('10日放送の「中居正広のミになる図書館」(テレビ朝日系)で、SMAPの中居正広が、篠原信一の過去の勘違いを明かす一幕があった。')
# ["10日", "放送", "の", "「", "中居正広のミになる図書館", "」", "(", "テレビ朝日", "系", ")", "で", "、", "SMAP", "の", "中居正広", "が", "、", "篠原信一", "の", "過去", "の", "勘違い", "を", "明かす", "一幕", "が", "あっ", "た", "。"]
めでたい。
僕の子 @yootakuti が動いているさくらVPSから契約更新の案内が届いて、久しぶりに存在を思い出していろいろ振り返っていた次第。辞書をNEologdに変えて、久しぶりにコードを更新して賢くしてあげても良いかもしれない。マルコフ連鎖生成用ライブラリもNEologd対応させてみたりしてね。
シェアする
カテゴリ
あわせて読みたい
- 2017-05-14
- 推薦システムのためのOSSたち
- 2013-07-29
- はてなキーワードを使ってigo-ruby(MeCab)用の辞書をナウい感じにする
- 2013-07-28
- マルコフ連鎖でTwitter Botをつくりました
最終更新日: 2022-01-18
書いた人: たくち
Takuya Kitazawa(たくち)です。長野県出身、カナダ・バンクーバー在住のソフトウェアエンジニア。これまでB2B/B2Cの各領域で、Web技術・データサイエンス・機械学習のプロダクト化および顧客への導入支援・コンサルティング、そして関連分野の啓蒙活動に携わってきました。現在は主に北米(カナダ)、アジア(日本)、アフリカ(マラウイ)の個人および企業を対象にフリーランスとして活動中。詳しい経歴はレジュメ を参照ください。いろいろなまちを走って、時に自然と戯れながら、その時間その場所の「日常」を生きています。ご意見・ご感想およびお仕事のご相談は [email protected] まで。
近況 一杯のコーヒーを贈る免責事項
- Amazonのアソシエイトとして、当サイトは amazon.co.jp 上の適格販売により収入を得ています。
- 当サイトおよび関連するメディア上での発言はすべて私個人の見解であり、所属する(あるいは過去に所属した)組織のいかなる見解を代表するものでもありません。
- 当サイトのコンテンツ・情報につきまして、可能な限り正確な情報を掲載するよう努めておりますが、個人ブログという性質上、誤情報や客観性を欠いた意見が入り込んでいることもございます。いかなる場合でも、当サイトおよびリンク先に掲載された内容によって生じた損害等の一切の責任を負いかねますのでご了承ください。
- その他、記事の内容や掲載画像などに問題がございましたら、直接メールでご連絡ください。確認の後、対応させていただきます。