中國科學報今天(5 月 29 日)報道,我國科學家聯合發明混合並行新算法 GroPipe,首次融合流水線模型並行與(yu) 數據並行,訓練 AI 速度近乎實現翻倍。
IT之家援引博文介紹,該算法由西北農(nong) 林科技大學信息工程學院智能計算與(yu) 農(nong) 業(ye) 信息係統團隊劉斌教授帶領,攜手美國紐約州立大學和雲(yun) 南大學,相關(guan) 論文聯合發表在國際計算機體(ti) 係結構領域權威期刊《IEEE Transactions on Computers》(TC,CCF A 類期刊)上。
西北農(nong) 林科技大學信息工程學院教授劉斌擔任第一作者,紀澤宇老師與(yu) 雲(yun) 南大學副教授何臻力共同擔任通訊作者,紐約州立大學教授李克勤(歐洲科學院院士,並行與(yu) 分布式計算領域公認的頂尖學者,國家特聘教授)作為(wei) 重要合作者。
研究指出,在訓練大型深度卷積神經網絡(DCNNs)方麵,使用越來越大的數據集來提高模型精度已變得非常耗時,數據並行(DP)和流水線模型並行(PMP)等分布式訓練方法雖然提供了可行解決(jue) 方案,但麵臨(lin) 負載不平衡和顯著的通信開銷等挑戰。
為(wei) 此團隊提出了 GroPipe 算法架構,協同整合 PMP 和 DP,采用了基於(yu) 性能預測技術的自動模型分割算法,確保負載平衡並便於(yu) 在 PMP 中進行定量性能評估。
該方法首次將流水線模型並行與(yu) 數據並行相融合,構建“組內(nei) 流水線 + 組間數據並行”的分層訓練架構,並通過自動模型劃分算法(AMPA)實現計算負載的動態均衡調度,大幅提升 GPU 資源利用率。
在一台 8-GPU 服務器上廣泛測試後,發現在 ImageNet 數據集上,GroPipe 方法相較於(yu) 主流方案(如 DP、Torchgpipe、DAPPLE 和 DeepSpeed)表現出卓越優(you) 勢:ResNet 係列平均加速比達 42.2%,VGG 係列達 79.2%;在 BERT-base 模型訓練中,性能提升最高可達 51%。




新手指南
我是買家
我是賣家

