2007年11月
リンク情報を基にした高等教育機関Webサイトからの研究室情報の自動抽出
日本教育工学会論文誌
- ,
- ,
- 巻
- 31
- 号
- 3
- 開始ページ
- 383
- 終了ページ
- 391
- 記述言語
- 日本語
- 掲載種別
- 研究論文(学術雑誌)
- DOI
- 10.15077/jjet.KJ00004964302
- 出版者・発行元
- 日本教育工学会
本研究は大学等の教員や学生にとって教育や研究,また学習に役立つWeb上の情報を分類して検索するシステム開発研究の一環である.クローリングにより収集した大学のWebページを対象として,リンク情報を応用して大学のWebから「研究内容」,「講義用ノート」など教育に有用なページを含む研究室情報を自動抽出した.この自動抽出を,特徴的な文字列を含むhtmlページのアンカーテキストからリンクされるページと,それを起点としてリンクされるページ群を収集するという新しい手法により実現した.具体的には筑波大学のWebサイトを対象として研究室情報を,非常に高い再現率,適合率で自動抽出した.リンク情報を基に抽出する本方法は,ページ内の出現語彙に規則性がなく自然言語処理による情報の自動抽出が困難な,あるいはページ構造に規則性がない情報を白動抽出するのに効果的な方法であることを実証した.
- リンク情報
- ID情報
-
- DOI : 10.15077/jjet.KJ00004964302
- ISSN : 1349-8290
- CiNii Articles ID : 110006794726
- CiNii Books ID : AA11964147