2007年 - 2008年
個々のWebサイトが持つ情報の特性を考慮した多角的意見集約・分析の研究
日本学術振興会 科学研究費助成事業 特定領域研究 特定領域研究
- 課題番号
- 19024002
- 体系的課題番号
- JP19024002
- 担当区分
- 研究代表者
- 配分額
-
- (総額)
- 5,600,000円
- (直接経費)
- 5,600,000円
- (間接経費)
- 0円
- 資金種別
- 競争的資金
本研究では、情報抽出元である各々のWebサイトが持つ情報の偏りなどの特徴を分析する方法を提案すると共に、この特徴分析の結果を踏まえた意見集約・分析の方法を提案している。具体的には、全てのデータセットを含む全体のデータベースと特定の条件を満たす部分データベースにおけるデータの分布の違いに注目したコントラストセットマイニングを適用することにより、個々のサイトの特徴を分析する方法を提案する。
この目標に対して、本年度は、「コントラストセットマイニングによる個々のサイトの特徴分析」の考え方に基づくシステムを実装し、様々なレベルのユーザ実験を通した評価を行った。簡単にシステムを使用してもらってコメントをもらうというユーザ実験では、半数以上の利用者から、システムが有用であるというコメントをもらえた。一方、レポート作成課題の実施という本システムの利用目的に応じた課題の遂行という実験を行ったところ、異なる国のデータとの比較を行う際には、外国語の新聞を直接の比較対象とする必要性などが指摘された。この指摘を受け、機械翻訳システムと組み合わせることによりシステムを作成した。このシステムでは、ニュースなどの時事的なトピックに対する対訳辞書の不備を補うためのWikipediaを用いた対訳辞書の作成方法などの提案も行った。また、ピンポイントクラスタリングによるWebサイトの分析」の課題については、昨年度から継続して、フォーマルコンセプト(FCA)を用いた分枝限定法にもとづくトップN-FC探索手法の研究を行った。
この目標に対して、本年度は、「コントラストセットマイニングによる個々のサイトの特徴分析」の考え方に基づくシステムを実装し、様々なレベルのユーザ実験を通した評価を行った。簡単にシステムを使用してもらってコメントをもらうというユーザ実験では、半数以上の利用者から、システムが有用であるというコメントをもらえた。一方、レポート作成課題の実施という本システムの利用目的に応じた課題の遂行という実験を行ったところ、異なる国のデータとの比較を行う際には、外国語の新聞を直接の比較対象とする必要性などが指摘された。この指摘を受け、機械翻訳システムと組み合わせることによりシステムを作成した。このシステムでは、ニュースなどの時事的なトピックに対する対訳辞書の不備を補うためのWikipediaを用いた対訳辞書の作成方法などの提案も行った。また、ピンポイントクラスタリングによるWebサイトの分析」の課題については、昨年度から継続して、フォーマルコンセプト(FCA)を用いた分枝限定法にもとづくトップN-FC探索手法の研究を行った。
- リンク情報
- ID情報
-
- 課題番号 : 19024002
- 体系的課題番号 : JP19024002