MISC

2014年5月15日

形態素解析との同時最適化による歴史的資料の自動表記整理

研究報告自然言語処理(NL)
  • 岡照晃
  • ,
  • 松本裕治

2014
8
開始ページ
1
終了ページ
20
記述言語
日本語
掲載種別
出版者・発行元
一般社団法人情報処理学会

日本語の歴史的資料の中では表記規範が確立していないための表記揺れが著しい.そういった表記揺れを含んだ文は現代人にとって読み辛く,資料をコーパス化した際の検索性も低い.そのため,歴史コーパスを整備する際には原文表記を整える作業 (表記整理) が実施される.しかしこの作業は人手のコストが非常に高い.そこで統計的機械学習を用いた自動表記整理として,単語辞書を用いた辞書ベースの手法と,周辺文字列の情報だけで表記整理を行う文字ベースの手法が提案されている.辞書ベースの手法は形態素解析と同時に表記整理を実施する.そのため表記整理時に単語境界や品詞の情報が利用できる.しかし学習に品詞タグ付きコーパスが必要であり,学習用コーパスが限られるという問題がある.一方,文字ベースの手法は学習に品詞タグ付きコーパスを必要としない.そのため学習用コーパスは辞書ベースの手法よりも多く確保できる.しかし表記整理時に単語境界や品詞の情報が使えないため,部分文字列にマッチする単語に引かれて誤った表記整理を行う問題がある.そこで本論文では,辞書ベースの手法と文字ベースの手法のそれぞれの欠点を互いの利点で補い合わせるために,2 つをハイブリッドした自動表記整理手法を提案する.提案手法は辞書ベースの表記整理と同様に形態素解析のフレームワークを利用するが,Augmented-Loss Training とよばれる学習アルゴリズムを採用することで,単語境界や品詞情報を持たない表記整理済みコーパスも学習に利用することができる.性能評価実験では,提案手法を用いることで,近代の雑誌 「太陽」 に対して F1 値 85.3 と,従来法 (F1 値:74.8) よりも高い精度で表記整理が行えることが分かった.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110009770564
CiNii Books
http://ci.nii.ac.jp/ncid/AN10115061
URL
http://id.nii.ac.jp/1001/00101175/
ID情報
  • CiNii Articles ID : 110009770564
  • CiNii Books ID : AN10115061

エクスポート
BibTeX RIS