【soft】日本語形態素解析Mecab・めかぶ
これまではChasenが有名でしたが、最近は専らMecab/めかぶが使われているそうです。
ちなみにアウトプットの互換性はないようです。
Chasenは、インストールがやや大変だったように記憶していますが、Mecabはとても簡単で、Windowsバイナリも提供されてます(とはいえ、コマンドとして)
こういう系は、システムが立派でも辞書次第という事もあって、標準辞書では、上の写真のような解析結果となります。
要は、一般名詞をいかに充実させるかなんでしょうけどね。Wikipediaやはてなキーワードあたりから貰ってきて、辞書変換するとか、すれば強力になりそうです。
なんか面白そうなシステムが作れそうですねぇ。
ちなみに開発者の大好物が、メカブなんだそうです。
使い方は、標準インストールだと普通にProgramfilesに入りますので、BATとか作った方がいいでしょうね。(わざわざPATH通すのも嫌ですし)
"C:Program Files (x86)MeCabbinmecab.exe" input.txt -o out.txt
input.txtに、解析したいテキストを入れておくと、out.txtに出力される、それだけです。
インストール時の設定で文字化けする場合があるので、文字コードをちゃんと確認する事(UTF8にすると、コマンドライン上で確認できません)
辞書に無い名詞もある程度は認識されるそうですが、単純に世の中のニュース記事が綺麗に書かれている訳でもなく、実運用には多少工夫が必要ですね。「ジム・キャリー」とか、間に「・」とか入れるパターンは駄目なんです。
辞書を追加した場合は、公式サイトに詳しく書かれてます。ただ、コスト(単語の重さ)の指定値が難しいですね。
MeCab(オープンソース/LGPL)
http://mecab.sourceforge.net/
ディスカッション
コメント一覧
まだ、コメントがありません