mecab
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
* mecab [#s6b4c636]
日本語形態素解析のためのエンジンです。
現状一番広く使われているようです。
** 入手とインストール [#pe306bfe]
公式(http://taku910.github.io/mecab/)を参考。
-[[ダウンロード:http://taku910.github.io/mecab/#download]]
-[[インストール:http://taku910.github.io/mecab/#install]]
mecab本体と辞書をインストールする必要があります。
辞書は幾つか種類がありますが、トラブル時の情報の多さから...
今のご時世(2017年)なら、辞書の文字コードはeucではなくutf-...
./configure --with-charset=utf8
** ユーザー辞書の追加 [#gc075b5f]
csv形式で、追加したい単語を記述します。
宇佐美,,,,名詞,固有名詞,人名,姓,*,*,うさみ,ウサミ,ウサミ
いちか,,,,名詞,固有名詞,人名,名,*,*,いちか,イチカ,イチカ
非活用の単語は1行で済みますが、活用する単語は記述が少々面...
詳しくは公式ページを参考ください。
ユーザー辞書に追加したい単語は、基本的に固有名詞かと思う...
https://taku910.github.io/mecab/dic.html
続いて、文脈IDやコスト値を学習モデルから自動的に補完しま...
まずmecab-ipadicのモデルファイルを[[こちら:https://drive....
$ vi mecab-ipadic-2.7.0-20070801.model
先頭付近にあるcharsetをutf-8に変更します。
charset: utf-8
続いてモデルファイル自体の文字コードを変換します。
$ nkf -w --overwrite ./mecab-ipadic-2.7.0-20070801.model
これで準備が整ったので、下記のコマンドを実行します。
$ /usr/local/libexec/mecab/mecab-dict-index -m ../mecab/...
-d /usr/local/lib/mecab/dic/ipadic -u output_dic.csv \
-f utf-8 -t utf-8 -a input_dic.csv
csvから辞書をコンパイルします。
$ /usr/local/libexec/mecab/mecab-dict-index -d/usr/local...
/usr/local/lib/mecab/dic/ipadic/dicrcを編集して、下記を追...
userdic = /home/foo/bar/usr.dic
*** トラブルシューティング [#s636c01e]
../mecab/mecab-ipadic-2.7.0-20070801.model is not a bina...
特にエラーメッセージではないです。
feature_index.cpp(81) [ifs] no such file or directory: /...
なぜかfeature.defがインストールされていなかったので、ダウ...
reading user_dic.csv ... context_id.cpp(96) [it != left_...
これは幾つか原因がありそうですが、csvの記載内容が正しくな...
- 品詞分類がpos-id.defに含まれているものと一致するか
- カンマが誤ってドットになっていないか
viterbi.cpp(50) [tokenizer_->open(param)] tokenizer.cpp(...
文字コードが異なっているかもしれません。辞書コンパイル時...
----
** 履歴 [#v32a7772]
- 2017/07/04 : bokupi 新規作成
終了行:
* mecab [#s6b4c636]
日本語形態素解析のためのエンジンです。
現状一番広く使われているようです。
** 入手とインストール [#pe306bfe]
公式(http://taku910.github.io/mecab/)を参考。
-[[ダウンロード:http://taku910.github.io/mecab/#download]]
-[[インストール:http://taku910.github.io/mecab/#install]]
mecab本体と辞書をインストールする必要があります。
辞書は幾つか種類がありますが、トラブル時の情報の多さから...
今のご時世(2017年)なら、辞書の文字コードはeucではなくutf-...
./configure --with-charset=utf8
** ユーザー辞書の追加 [#gc075b5f]
csv形式で、追加したい単語を記述します。
宇佐美,,,,名詞,固有名詞,人名,姓,*,*,うさみ,ウサミ,ウサミ
いちか,,,,名詞,固有名詞,人名,名,*,*,いちか,イチカ,イチカ
非活用の単語は1行で済みますが、活用する単語は記述が少々面...
詳しくは公式ページを参考ください。
ユーザー辞書に追加したい単語は、基本的に固有名詞かと思う...
https://taku910.github.io/mecab/dic.html
続いて、文脈IDやコスト値を学習モデルから自動的に補完しま...
まずmecab-ipadicのモデルファイルを[[こちら:https://drive....
$ vi mecab-ipadic-2.7.0-20070801.model
先頭付近にあるcharsetをutf-8に変更します。
charset: utf-8
続いてモデルファイル自体の文字コードを変換します。
$ nkf -w --overwrite ./mecab-ipadic-2.7.0-20070801.model
これで準備が整ったので、下記のコマンドを実行します。
$ /usr/local/libexec/mecab/mecab-dict-index -m ../mecab/...
-d /usr/local/lib/mecab/dic/ipadic -u output_dic.csv \
-f utf-8 -t utf-8 -a input_dic.csv
csvから辞書をコンパイルします。
$ /usr/local/libexec/mecab/mecab-dict-index -d/usr/local...
/usr/local/lib/mecab/dic/ipadic/dicrcを編集して、下記を追...
userdic = /home/foo/bar/usr.dic
*** トラブルシューティング [#s636c01e]
../mecab/mecab-ipadic-2.7.0-20070801.model is not a bina...
特にエラーメッセージではないです。
feature_index.cpp(81) [ifs] no such file or directory: /...
なぜかfeature.defがインストールされていなかったので、ダウ...
reading user_dic.csv ... context_id.cpp(96) [it != left_...
これは幾つか原因がありそうですが、csvの記載内容が正しくな...
- 品詞分類がpos-id.defに含まれているものと一致するか
- カンマが誤ってドットになっていないか
viterbi.cpp(50) [tokenizer_->open(param)] tokenizer.cpp(...
文字コードが異なっているかもしれません。辞書コンパイル時...
----
** 履歴 [#v32a7772]
- 2017/07/04 : bokupi 新規作成
ページ名: