共同研究・競争的資金等の研究課題

2019年4月 - 2024年3月

構造抽出による自然言語ビッグデータへの高次高精度なデータマイニング技術の開発

日本学術振興会  科学研究費助成事業 基盤研究(A)
  • 宇野 毅明
  • ,
  • 橋本 隆子
  • ,
  • 小林 亮太
  • ,
  • 久保山 哲二
  • ,
  • 申 吉浩

課題番号
19H01133
配分額
(総額)
44,330,000円
(直接経費)
34,100,000円
(間接経費)
10,230,000円

本年度は、ソーシャルメディア上の議論の動きやデマ、ヘイトなど、大きな偏りを持った動きが、実際どのような変遷を経ておこってきたのか、そのさいに、形質上の特徴がどのようなものであったかを、具体的な例を精査して調査研究するために、まず、このような群衆行動がおこる構造の面の知見が豊富な社会心理学の概念を調査し、それをSNS上の動きや形質との対応を見ることで分析を行った。デマ流布については、この課題の着想に至った原点である、情報源が単一であることによる多様性の低下という観察があったが、その他にも、媒介する投稿者たちの興味の低さが関係していそうだということが観察された。また、ヘイトについては、単なる嫌悪感情だけでなく、公正世界仮説に基づく行動が行われているようであることも観察された。これらがもたらす形質の変化は、使用する単語が初等的になる、意味的に類似するクラスタがありそうだなどの観察を得た。
これらをもとにした簡潔なモデルをマイクロクラスタリングを使ってアルゴリズムとして実装し、計算実験を行った。結果を観察すると、実際に頻度の高い単語の共通性が高いクラスタ群が観察され、モデルの方向性の正しさを検証することができた。今後はこのモデルのさらなる改良、安定化を行っていく。
招聘予定であった北米の David Shepard 氏は、コロナ禍のため実現が不可能となり、予算を繰り越して2020年度に延期した。しかし20年度もコロナ禍は収束せず、結局招聘はとりやめた。代わりに、メールなどによる議論と、日本側での調査実装により、Webからのテキストデータの収集ツールを構築し、プログラムとして実装した。
同時に、マイニング計算の基礎となる離散アルゴリズムについても、いくつかの新しい成果を得ることに成功した。

ID情報
  • 課題番号 : 19H01133