2020年4月 - 2024年3月
大規模分散深層学習をIn-Network Computingで加速する相互結合網
日本学術振興会 科学研究費助成事業 若手研究 若手研究
ビッグデータに対する大規模深層学習を行うにあたり、多数のプロセッサを同時に用いて特徴量を抽出するためのデータレベル並列性の活用が喫緊の課題となっている。その解決策として、データセンタ内にドメイン特化型アーキテクチャ (Domain Specific Architecture; DSA) と呼ばれる専用プロセッサを数十万ノードの規模で分散配置し、学習を行うシステムが有望とされている。しかし、深層学習における順伝播・逆伝播時に特徴量や勾配をエンドプロセッサ間で交換するための通信が高遅延・高頻度となり、性能のボトルネック化する。高帯域性や拡張性を重視する従来のデータセンタ向けネットワークでは、大規模分散深層学習の高速化が困難とされる。そこで、本研究では、ネットワーク上の中間スイッチ内で特徴量や勾配の集約・中間処理を行うIn-Network Computingを活用し、低遅延・低頻度の通信と、従来のネットワーク同様の高帯域性・拡張性を両立可能なスイッチ間相互結合網の開発に取り組んでいる。
第二年度である2021年度において研究代表者は、(1) ドメイン固有アプリケーションの性能向上のためのルーティング手法の開発、(2)データセンタ向けネットワークの性能測定の高速化、の2点に取り組んだ。(1) について、(1)-A 実行アプリケーションに対して通信性能を最適化可能なルーティングの動的再構成手法、(1)-B 低遅延ネットワークに対し通信の輻輳回避とスケーラビリティ向上を両立可能なルーティング手法を開発した。また、(2) について、ネットワーク構成の最適化において繰り返し実行されるネットワーク性能の測定を、GPUを用いて高速に並列計算可能とした。
第二年度である2021年度において研究代表者は、(1) ドメイン固有アプリケーションの性能向上のためのルーティング手法の開発、(2)データセンタ向けネットワークの性能測定の高速化、の2点に取り組んだ。(1) について、(1)-A 実行アプリケーションに対して通信性能を最適化可能なルーティングの動的再構成手法、(1)-B 低遅延ネットワークに対し通信の輻輳回避とスケーラビリティ向上を両立可能なルーティング手法を開発した。また、(2) について、ネットワーク構成の最適化において繰り返し実行されるネットワーク性能の測定を、GPUを用いて高速に並列計算可能とした。
- ID情報
-
- 課題番号 : 20K19788
- 体系的課題番号 : JP20K19788
この研究課題の成果一覧
絞り込み
論文
1-
IEICE Transactions on Information and Systems E103.D(12) 2471-2479 2020年12月1日 査読有り筆頭著者