11月30日,在2024中國信息通信大會“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇 ”上,中國移動攜手天數(shù)智芯、壁仞科技、中興、海光、瀚博等產(chǎn)業(yè)合作伙伴發(fā)布“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)1.0。
“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)具備基于非均勻計算任務(wù)切分ITD(Inhomogeneous Task Distribution)算法的3D并行策略和基于GDR(GPU Direct RDMA)的異構(gòu)芯片高速通信兩大核心能力。
其中,基于ITD算法的3D并行技術(shù)可通過通用混合訓(xùn)練框架實現(xiàn)異構(gòu)數(shù)據(jù)并行、異構(gòu)流水線并行,實現(xiàn)數(shù)據(jù)微批次大小、數(shù)量、流水線并行度等參數(shù)在異構(gòu)算力上的自適應(yīng)調(diào)整;基于GDR的異構(gòu)芯片高速通信技術(shù)可在不改變芯片原有通信接口基礎(chǔ)上,通過定義數(shù)據(jù)傳輸架構(gòu)、流程及接口標(biāo)準(zhǔn),屏蔽底層硬件差異,實現(xiàn)頂層訓(xùn)練任務(wù)在異構(gòu)算力集群上分布式通信的無感拆解。
當(dāng)前,系統(tǒng)已實現(xiàn)百億參數(shù)大模型在英偉達(dá)、天數(shù)智芯、壁仞科技、海光等4家智算芯片上的交叉混合訓(xùn)練,規(guī)模可支持萬卡集群,訓(xùn)練加速比達(dá)95%以上,達(dá)到業(yè)界領(lǐng)先水平,未來將在提升智能算力資源利用率及促進(jìn)國產(chǎn)算力發(fā)展等方面發(fā)揮重要作用。
來源:中國移動研究院