弐条海月の とはずがたり

そこはかとなく書き綴るブログなるもの

自分専用のことえり辞書を作る

 今日は通常の仕事ではなくて大掃除でした。不思議なことに今年は大掃除を終えてもなお、年末ムードが盛り上がってきません、私の中で(笑)。そして明日はいつもより早く出社せねばならないので早めに寝るつもりですが、そんな私が今日行ったことはMac純正の日本語入力環境「ことえり」で使う自分専用の辞書、その名も「海月辞書」の作成です。

 自分専用辞書を作成するにあたり、どういった単語を学習させるのが一番効率的なのか考えてみます。ですが、その答えはすぐに出ることでしょう。なぜならば、自分が書く文章を構成する単語がストレスなく入力できることにほかならないからです。自分が使いやすい環境にするためには自分がよく使う単語を覚えさせるのが一番効率的な方法となるのです。

 自分専用辞書の作成には事前の準備が必要です。まずはこの日記の文章全てをWordPressのエクスポート機能で書き出します。すると容量6.33MBのXMLファイルがダウンロードされました。次にできたxmlファイルからタグを取ります。それをWindowsのATOKにあるAI辞書を鍛える機能を使ってユーザ辞書化する必要があります。

 続いて、出来上がったATOKのユーザ辞書をテキスト書き出しします。このテキストはタブ区切りになっております。そこからは「ことえり」が認識出来る形式にテキストを整形する作業が必要になります。

 最初にテキスト書き出しした状態ではこうなっております。空白部分はタブです。

よみ	読み	品詞

 「ことえり」が認識できるテキストファイルの中身は以下のような感じになります。

"よみ","読み","品詞"

 ですので、改行コードの「\r」を「”\r”で」置き換えてみます。これで行末に「”」が入り、次の行頭にも「”」が入ることになります。ただし、一番最初の行頭と最終行の行末には「”」が入らないのでここは手作業になります。

 次にタブコード「\t」を「”,”」で置き換えます。これでテキスト整形は終わりなのですが、品詞をいくつか変更する必要があります。「名詞サ変」を「サ変名詞」にするなどです。

 できあがったテキストの内容をざっと見て、いくつかおかしな単語を削除して2228行。これを「ことえり」読み込ませます。ダブりがあったのか登録できない言葉があったのかは分からないのですが、実際に登録してみると語数は1830になりました。

 これがことえりの性能にどんな影響を与えるのか…楽しみにしております。
もしかしておかしなことになったりして(笑)?


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

固定ページ

最近の投稿

カテゴリー





カレンダー

2010年12月
 12345
6789101112
13141516171819
20212223242526
2728293031  

過去の日記はこちら

キーワードで検索