MISC

2013年2月15日

共起関係の抽出範囲を考慮した有害情報フィルタリング手法

情報処理学会論文誌
  • 中村 健二
  • ,
  • 田中 成典
  • ,
  • 山本 雄平
  • ,
  • 安彦 智史

54
2
開始ページ
571
終了ページ
584
記述言語
日本語
掲載種別
出版者・発行元
情報処理学会

インターネットには,青少年の健全な育成に不適切な有害情報が存在している.これらの情報を機械的に判定する様々な有害情報フィルタリングの研究が行われている.その中でも,単語間の共起に基づき抽出した特徴を用いて有害情報を判定する手法が着目されている.その多くは,特徴抽出の処理範囲であるウィンドウサイズをページ全体や文の係り受け関係などの一定範囲として用いている.しかし,投稿された文書の範囲は多様であることから,適切な単語の共起関係が取得できない場合がある.そのため,誤った単語の組合せが特徴として抽出され,有害情報の判定精度が低下するという問題がある.そこで,本研究では,ページ分割手法を用いて多様なウィンドウサイズを考慮した有害情報フィルタリング手法を提案する.そして,本提案手法の有用性を検証するため,既存手法との比較実験を実施した結果,本提案手法の方が高精度に判定可能であることを実証した.The Internet contains a harmful information that is not conducive to the healthy development of young people. Researchers are investigating ways to mechanically identify this harmful information and to filter it. The methods that have received the most attention are many researches in which harmful information is identified using characteristics extracted based on the word co-occurrence. Many previous researches have been used the window size that is the scope of characteristic extraction, fixed lengths such as the whole-page and the dependency relationships. However, since the length of a submitted document is variable, a contradiction arises between the submitted document and the scope of the characteristics extraction. As such, incorrect word combinations are extracted as having a characteristic. This lowers the accuracy of harmful information identification. In this research, a method of filtering harmful information is proposed which accounts for variable window size using the page segmentation method. The utility of the proposed method was investigated by conducting that compared the method to previous ones. The results proofed that the proposed method has the potential for more accurate identification.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110009537053
CiNii Books
http://ci.nii.ac.jp/ncid/AN00116647
URL
http://id.ndl.go.jp/bib/024289565
URL
http://id.nii.ac.jp/1001/00090262/
ID情報
  • ISSN : 1882-7764
  • CiNii Articles ID : 110009537053
  • CiNii Books ID : AN00116647

エクスポート
BibTeX RIS