MISC

2008年3月15日

ブログユーザ空間からの重複を許した頻出コミュニティ抽出法

情報処理学会論文誌数理モデル化と応用(TOM)
  • 高木 允
  • ,
  • 森 康真
  • ,
  • 田村 慶一
  • ,
  • 北上 始

49
4
開始ページ
93
終了ページ
104
記述言語
日本語
掲載種別
出版者・発行元
社団法人情報処理学会

本研究では,ブログの書き手であるブロガに焦点を当て,ブロガをノード,トラックバックによるつながりを辺としたグラフから,数カ月にわたって頻出し,かつ重複を許したコミュニティを発見する手法を提案する.提案手法は,複数のグラフから頻出部分グラフを抽出し,得られた頻出部分グラフに重複を許したクラスタリング手法を適用することにより,重複を許した頻出コミュニティを発見する.頻出部分グラフの抽出については,頻出部分グラフ抽出の問題を頻出アイテム集合抽出の問題に変換し,LCM 法を用いることで頻出部分グラフ抽出を達成している.重複を許したクラスタリングについては,頻出部分グラフをNewman らのクラスタリング手法を応用し,縮約グラフの作成と再クラスタリングすることで達成している.提案手法の有用性を確認するために,複数カ月にわたりブログデータを収集し,頻出コミュニティの抽出を行った.その結果,共通の興味・関心を持って頻出するコミュニティと,複数のコミュニティに重複してクラスタリングされるブロガを発見できた.In this study, we focus on bloggers who are writers of blog articles and propose a technique which extracts frequent and overlapped communities across multiple months from graphs consisting of nodes and edges. A node is defined as a blogger and an edge is a connection of trackback. First, the proposed technique extracts frequent communities by extracting frequent subgraphs. Second, the proposed technique extracts overlapping communities by clustering the extracted subgraphs. In the procedures of extraction of frequent subgraphs, we transform the frequent subgraphs extraction problem to the frequent itemsets extraction problem. In the first step, the LCM algorithm is applied to extract the frequent itemsets. In the second step,we applied the Newman's algorithm to find overlapping clusters. To confirm the availability of proposed technique, we collected the graph data and extracted the frequent communities.As a result, frequent communities which have common interests and the bloggers who are clustered into multiple clusters are extracted.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110006684621
CiNii Books
http://ci.nii.ac.jp/ncid/AA11464803
URL
http://id.ndl.go.jp/bib/9421114
URL
http://harp.lib.hiroshima-u.ac.jp/hiroshima-cu/metadata/6879
URL
http://id.nii.ac.jp/1001/00017074/
ID情報
  • ISSN : 1882-7780
  • CiNii Articles ID : 110006684621
  • CiNii Books ID : AA11464803

エクスポート
BibTeX RIS