2015年5月
HTML構造解析と機械学習に基づくイベント情報抽出システムの提案
情報処理学会研究報告
- ,
- ,
- ,
- 巻
- 2015-UBI-46
- 号
- 13
- 開始ページ
- 1
- 終了ページ
- 7
- 記述言語
- 日本語
- 掲載種別
- 研究発表ペーパー・要旨(全国大会,その他学術会議)
- 出版者・発行元
- 一般社団法人情報処理学会
本研究は,店舗のホームページやブログからクーポンやキャンペーンなどのイベント情報を抽出する方法を提案する.この方法を利用してユーザはをひとつひとつの店舗のホームページの閲覧を必要とせず,イベント情報抽出の網羅性と効率性を支援できる.本提案は Web ページブロック分割およびイベント情報認識の二つのタスクから構成される.一つ目のタスクでは Web ページをタイトルや説明文や日付などのイベント情報を含むブロックに分割する.従来の研究は特定なタグ,画面構成あるいはブロックの機能などを特徴量として Web ページを分割することが多く,半構造化データのイベント情報抽出が難しかった.本研究では HTML 構造解析に基づいて Web ページをブロックに分割する.二つ目のタスクとは分割されたブロックから不用な情報を取り除くため,イベント情報を識別する.本研究では機械学習の手法を用いてイベント情報の識別を実現する.名古屋駅地下街 「エスカ」 と 「ユニモール」 にある店舗 96 軒を対象として行った検証実験とその結果を示す.
- リンク情報
- ID情報
-
- ISSN : 0919-6072
- J-Global ID : 201502219218932330
- CiNii Articles ID : 110009895736
- identifiers.cinii_nr_id : 9000288543753