7月3日,摩爾線程宣布,其 AI 旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案從當(dāng)前的千卡級別擴(kuò)展至萬卡規(guī)模。
摩爾線程夸娥(KUAE)萬卡智算集群,以全功能GPU為底座,旨在打造國內(nèi)領(lǐng)先的、能夠承載萬卡規(guī)模、具備萬P級浮點(diǎn)運(yùn)算能力的國產(chǎn)通用加速計(jì)算平臺,專為萬億參數(shù)級別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì)。這一里程碑式的進(jìn)展,樹立了國產(chǎn)GPU技術(shù)的新標(biāo)桿,有助于實(shí)現(xiàn)國產(chǎn)智算集群計(jì)算能力的全新跨越,將為我國人工智能領(lǐng)域技術(shù)與應(yīng)用創(chuàng)新、科研攻堅(jiān)和產(chǎn)業(yè)升級提供堅(jiān)實(shí)可靠的關(guān)鍵基礎(chǔ)設(shè)施。
夸娥萬卡智算解決方案具備多個核心特性:
▼ 超大算力,萬卡萬P:在集群計(jì)算性能方面,全新一代夸娥智算集群實(shí)現(xiàn)單集群規(guī)模超萬卡,浮點(diǎn)運(yùn)算能力達(dá)到10Exa-Flops,大幅提升單集群計(jì)算性能,能夠?yàn)槿f億參數(shù)級別大模型訓(xùn)練提供堅(jiān)實(shí)算力基礎(chǔ)。同時,在GPU顯存和傳輸帶寬方面,夸娥萬卡集群達(dá)到PB級的超大顯存總?cè)萘?、每秒PB級的超高速卡間互聯(lián)總帶寬和每秒PB級超高速節(jié)點(diǎn)互聯(lián)總帶寬,實(shí)現(xiàn)算力、顯存和帶寬的系統(tǒng)性協(xié)同優(yōu)化,全面提升集群計(jì)算性能。
▼超高穩(wěn)定,月級長穩(wěn)訓(xùn)練:穩(wěn)定性是衡量超萬卡集群性能的關(guān)鍵。在集群穩(wěn)定性方面,摩爾線程夸娥萬卡集群平均無故障運(yùn)行時間超過15天,最長可實(shí)現(xiàn)大模型穩(wěn)定訓(xùn)練30天以上,周均訓(xùn)練有效率在99%以上,遠(yuǎn)超行業(yè)平均水平。這得益于摩爾線程自主研發(fā)的一系列可預(yù)測、可診斷的多級可靠機(jī)制,包括:軟硬件故障的自動定位與診斷預(yù)測實(shí)現(xiàn)分鐘級的故障定位,Checkpoint多級存儲機(jī)制實(shí)現(xiàn)內(nèi)存秒級存儲和訓(xùn)練任務(wù)分鐘級恢復(fù)以及高容錯高效能的萬卡集群管理平臺實(shí)現(xiàn)秒級納管分配與作業(yè)調(diào)度。
▼極致優(yōu)化,超高M(jìn)FU:MFU是評估大模型訓(xùn)練效率的通用指標(biāo),可以直接反應(yīng)端到端的集群訓(xùn)練效率。夸娥萬卡集群在系統(tǒng)軟件、框架、算法等層面一系列優(yōu)化,實(shí)現(xiàn)大模型的高效率訓(xùn)練,MFU最高可達(dá)到60%。其中,在系統(tǒng)軟件層面,基于極致的計(jì)算和通訊效率優(yōu)化等技術(shù)手段,大幅提升集群的執(zhí)行效率和性能表現(xiàn)。在框架和算法層面,夸娥萬卡集群支持多種自適應(yīng)混合并行策略與高效顯存優(yōu)化等,可以根據(jù)應(yīng)用負(fù)載選擇并自動配置最優(yōu)的并行策略,大幅提升訓(xùn)練效率和顯存利用。同時,針對超長序列大模型,夸娥萬卡集群通過CP并行、RingAttention等優(yōu)化技術(shù),有效縮減計(jì)算時間和顯存占用,大幅提升集群訓(xùn)練效率。
▼全能通用,生態(tài)友好:夸娥萬卡集群是一個通用加速計(jì)算平臺,計(jì)算能力為通用場景設(shè)計(jì),可加速LLM、MoE、多模態(tài)、Mamba等不同架構(gòu)、不同模態(tài)的大模型。同時,基于高效易用的MUSA編程語言、完整兼容CUDA能力和自動化遷移工具M(jìn)usify,加速新模型“Day0”級遷移,實(shí)現(xiàn)生態(tài)適配“Instant On”,助力客戶業(yè)務(wù)快速上線。
此外,摩爾線程聯(lián)合中國移動通信集團(tuán)青海有限公司、中國聯(lián)通青海公司、北京德道信科集團(tuán)、中國能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司(排名不分先后)分別就三個萬卡集群項(xiàng)目進(jìn)行了戰(zhàn)略簽約,多方聚力共同構(gòu)建好用的國產(chǎn)GPU集群。(來源:摩爾線程)