共同研究・競争的資金等の研究課題

2020年4月 - 2024年3月

大規模分散深層学習をIn-Network Computingで加速する相互結合網

日本学術振興会  科学研究費助成事業 若手研究  若手研究

課題番号
20K19788
体系的課題番号
JP20K19788
配分額
(総額)
4,160,000円
(直接経費)
3,200,000円
(間接経費)
960,000円

ビッグデータに対する大規模深層学習を行うにあたり、多数のプロセッサを同時に用いて特徴量を抽出するためのデータレベル並列性の活用が喫緊の課題となっている。その解決策として、データセンタ内にドメイン特化型アーキテクチャ (Domain Specific Architecture; DSA) と呼ばれる専用プロセッサを数十万ノードの規模で分散配置し、学習を行うシステムが有望とされている。しかし、深層学習における順伝播・逆伝播時に特徴量や勾配をエンドプロセッサ間で交換するための通信が高遅延・高頻度となり、性能のボトルネック化する。高帯域性や拡張性を重視する従来のデータセンタ向けネットワークでは、大規模分散深層学習の高速化が困難とされる。そこで、本研究では、ネットワーク上の中間スイッチ内で特徴量や勾配の集約・中間処理を行うIn-Network Computingを活用し、低遅延・低頻度の通信と、従来のネットワーク同様の高帯域性・拡張性を両立可能なスイッチ間相互結合網の開発に取り組んでいる。
第二年度である2021年度において研究代表者は、(1) ドメイン固有アプリケーションの性能向上のためのルーティング手法の開発、(2)データセンタ向けネットワークの性能測定の高速化、の2点に取り組んだ。(1) について、(1)-A 実行アプリケーションに対して通信性能を最適化可能なルーティングの動的再構成手法、(1)-B 低遅延ネットワークに対し通信の輻輳回避とスケーラビリティ向上を両立可能なルーティング手法を開発した。また、(2) について、ネットワーク構成の最適化において繰り返し実行されるネットワーク性能の測定を、GPUを用いて高速に並列計算可能とした。

リンク情報
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-20K19788
ID情報
  • 課題番号 : 20K19788
  • 体系的課題番号 : JP20K19788

この研究課題の成果一覧

論文

  1