共同研究・競争的資金等の研究課題

2010年 - 2012年

順序関係に着目した記号データの新しい学習法

文部科学省  科学研究費補助金(若手研究(B), 若手研究(B))
  • 原口 和也

課題番号
22700015
担当区分
研究代表者
配分額
(総額)
3,900,000円
(直接経費)
3,000,000円
(間接経費)
900,000円
資金種別
競争的資金

記号データから計算によって学習を行うための従来のアプローチは、それを直接取扱うことのできるモデルを用いるか(決定木など)、数値データに変換して分離平面を構成するか(SVMなど)のいずれかに大別される。一般に前者はデータベクトル間の距離や順序関係に関する概念を用いず、後者は距離の概念を用いるため、結果的に順序関係をも取扱う。本研究課題は、順序関係のみに着目した記号データからの学習アルゴリズムの開発を目指すものである。前年度の研究の経緯から、平成23年度は、任意の学習モデルがデータ空間を分割し、訓練事例のクラス分布にしたがって部分空間のランキング(順序付け)を暗に生成することに着目した。例えば、超平面モデルは分離平面からの距離によってランキングを生成し、決定木モデルは一つ一つの葉に点数を与えることによってランキングを生成する。真のランキングが与えられた人為的なデータで予備実験を行ったところ、決定木が生成するランキングと真のランキングの間のケンドール距離は、汎化誤差と高い相関を持つことを確認できた。解析を行った結果、2つのランキングの間の距離は、分類器の学習性能の評価指標の一つであるAUCと分類器の複雑さに相当する項の和で表されることがわかった。AICやMDLなど、これに類する量が汎化誤差と高い相関を持つことは既に学習理論の分野で広く知られており、我々の視点の妥当性が示唆されている。現実には真のランキングなるものは与えられないため、今後は何らかの方法でそれを仮定できるようにモデルを拡張しなければならない。そのための予備実験に必要なプログラムコードを整備した。

リンク情報
URL
http://kaken.nii.ac.jp/d/p/22700015.ja.html