【soft】日本語形態素解析Mecab・めかぶ

sc20120126143448

これまではChasenが有名でしたが、最近は専らMecab/めかぶが使われているそうです。

ちなみにアウトプットの互換性はないようです。

Chasenは、インストールがやや大変だったように記憶していますが、Mecabはとても簡単で、Windowsバイナリも提供されてます(とはいえ、コマンドとして)

こういう系は、システムが立派でも辞書次第という事もあって、標準辞書では、上の写真のような解析結果となります。

要は、一般名詞をいかに充実させるかなんでしょうけどね。Wikipediaやはてなキーワードあたりから貰ってきて、辞書変換するとか、すれば強力になりそうです。

なんか面白そうなシステムが作れそうですねぇ。

ちなみに開発者の大好物が、メカブなんだそうです。

使い方は、標準インストールだと普通にProgramfilesに入りますので、BATとか作った方がいいでしょうね。(わざわざPATH通すのも嫌ですし)

"C:Program Files (x86)MeCabbinmecab.exe" input.txt -o out.txt

input.txtに、解析したいテキストを入れておくと、out.txtに出力される、それだけです。

インストール時の設定で文字化けする場合があるので、文字コードをちゃんと確認する事(UTF8にすると、コマンドライン上で確認できません)

辞書に無い名詞もある程度は認識されるそうですが、単純に世の中のニュース記事が綺麗に書かれている訳でもなく、実運用には多少工夫が必要ですね。「ジム・キャリー」とか、間に「・」とか入れるパターンは駄目なんです。

辞書を追加した場合は、公式サイトに詳しく書かれてます。ただ、コスト(単語の重さ)の指定値が難しいですね。

MeCab(オープンソース/LGPL)
http://mecab.sourceforge.net/

コメントを残す

メールアドレスが公開されることはありません。