mecab

日本語解析のためのエンジンです。 現状一番広く使われているようです。

入手とインストール

公式(http://taku910.github.io/mecab/)を参考。

mecab本体と辞書をインストールする必要があります。 辞書は幾つか種類がありますが、トラブル時の情報の多さから、IPA辞書を入れておくと良いでしょう。

今のご時世(2017年)なら、辞書の文字コードはeucではなくutf-8にしておいた方が便利でしょう。

./configure --with-charset=utf8

ユーザー辞書の追加

csv形式で、追加したい単語を記述します。

宇佐美,,,,名詞,固有名詞,人名,姓,*,*,うさみ,ウサミ,ウサミ
いちか,,,,名詞,固有名詞,人名,名,*,*,いちか,イチカ,イチカ

非活用の単語は1行で済みますが、活用する単語は記述が少々面倒です。 詳しくは公式ページを参考ください。 ユーザー辞書に追加したい単語は、基本的に固有名詞かと思うので、活用形を持つ単語を登録する機会はないかと思うのですが。

https://taku910.github.io/mecab/dic.html


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS