mecabで半角記号が名詞,サ変接続になるのを解決する

初期設定のmecabは半角記号がなぜか、名詞,サ変接続になる

-------------------------------
; 名詞,サ変接続,*,*,*,*,*
\ 名詞,サ変接続,*,*,*,*,*
-------------------------------

サ変接続の名詞とは、サ変動詞に繋げることができる名詞のこと。
後ろに「~される」「~した」「~する」「~せよ」などが続いても違和感の無い名詞。「後悔」する、「録画」した、「撮影」される、といった言葉。

記号は記号であって、サ変接続の名詞ではないので、これでは困る。

半角記号を「記号」と認識してしまうのは、半角記号がmecabにとって未定義の文字(未知語)で、未知語の記号を「名詞,サ変接続」に分類するように未知語用のファイルに定義されているからである。

なので、未知語用のファイルをいじれば、問題は解決する。

解決方法

1.未知語用のファイルを開く

ファイル名は、unk.def。
(unk は unknown の略。拡張子「.def」は定義ファイル。(Define))

ここにあった。(インストール前の辞書ディレクトリ内)
--------------------------------------------
/home/username/local/mecab-ipadic-2.7.0-20070801
--------------------------------------------

開くと、こんな感じで未知語の処理方法が書いてある。
--------------------------------------------
KANJI,1292,1292,12649,名詞,固有名詞,組織,*,*,*,*
KANJI,1289,1289,17340,名詞,固有名詞,人名,一般,*,*,*
KANJI,1288,1288,15295,名詞,固有名詞,一般,*,*,*,*
SYMBOL,1283,1283,17585,名詞,サ変接続,*,*,*,*,*
NUMERIC,1295,1295,27386,名詞,数,*,*,*,*,*
ALPHA,1285,1285,13398,名詞,一般,*,*,*,*,*
ALPHA,1293,1293,18706,名詞,固有名詞,地域,一般,*,*,*
ALPHA,1292,1292,13835,名詞,固有名詞,組織,*,*,*,*
--------------------------------------------

「SYMBOL」の部分を変更。

変更後
--------------------------------------------
SYMBOL,1283,1283,17585,記号,一般,*,*,*,*,*
--------------------------------------------

2.辞書を再インストール

辞書を作り直す。

mecab-dict-indexを実行して再作成。
--------------------------------------------
/home/username/local/libexec/mecab/mecab-dict-index
--------------------------------------------

辞書再作成の詳細はこちらの真ん中より下らへんを参照。

参考ページ
こちら1  こちら2