windows版mecabにutf-8のシステム辞書を追加する

windows版mecabにシステム辞書を追加する。(unix版はこちら
unicodeの文字も扱いたいので、辞書の文字コードはutf-8とする。

環境: windows 7 (64bit)

windows版のmecab(辞書の文字コードutf-8)が既にインストールされていることが前提。

1.utf-8で書かれた辞書を用意する

こちらのページの1~3を参考

2.インストール済みmecabの辞書をutf-8に保存し直す

windowsにインストールされたmecabの辞書データはsjisで保存されている(インストール時にutf-8を選んだとしても)。拡張子がCSVとdefのファイルが辞書データなのですべてutf-8に保存し直す。(ディレクトリ全体に対してutf-8変換してもいい) ←ダメだった

辞書CSVファイルのパス
———————————————
C:\Program Files (x86)\MeCab\dic\ipadic
———————————————

文字コード一括変換のために使用したソフト
KanjiTranslator
「UTF-8(BOM無し)」「改行=CR+LF」← この設定で行った

utf-8に変換したら、追加用の辞書も同じフォルダに放り込む

3.辞書をコンパイルし直す

mecab-dict-indexを実行するので、mecab-dict-index.exeのあるフォルダまでコマンドプロンプトで移動。

mecab-dict-indexの詳細。こちら

mecab-dict-index.exeはここにあった。
——————————————
C:\Program Files (x86)\MeCab\bin
——————————————

実行。
——————————————
mecab-dict-index -d C:\Program Files (x86)\MeCab\dic\ipadic -f utf-8 -t utf-8
——————————————
パスの途中の半角スペースが区切りと誤認されないようにパス全体をダブルクォートでくくる。

「アクセスできない」等のエラーが出たら、フォルダを右クリックしてアクセス権を与えておく。

成功すると、4つのファイルができる

ファイルができる場所
——————————————
C:\Program Files (x86)\MeCab\bin
——————————————

ファイル名
——————————————
char.bin
sys.dic
unk.dic
matrix.bin
——————————————

4.できたファイルを正しい場所に移動させる

移動場所。元あるファイルと置換となる。
——————————————
C:\Program Files (x86)\MeCab\dic\ipadic
——————————————

ファイル移動の際アクセス権限がないとエラーが出たら、フォルダに権限を与えて、一度デスクトップにコピーして、目的のフォルダへ移動。(フォルダからフォルダへの移動ができなかった)
mecabは終了させておく。起動してると元ファイルが削除できない。

以上。

タイトルとURLをコピーしました