摩爾線程夸娥（KUAE）智算集群解決方案擴展至萬卡規(guī)模

YE 2024-07-05 09:56:51 0 0 0 生成海報

夸娥智算集群以全功能GPU為底座，實現(xiàn)單集群規(guī)模超萬卡，浮點運算能力達到10Exa-Flops，大幅提升單集群計算性能，能夠為萬億參數(shù)級別大模型訓(xùn)練提供堅實算力基礎(chǔ)。

7月3日，摩爾線程宣布，其 AI 旗艦產(chǎn)品夸娥（KUAE）智算集群解決方案從當前的千卡級別擴展至萬卡規(guī)模。

夸娥萬卡智算解決方案

摩爾線程夸娥（KUAE）萬卡智算集群，以全功能GPU為底座，旨在打造國內(nèi)領(lǐng)先的、能夠承載萬卡規(guī)模、具備萬P級浮點運算能力的國產(chǎn)通用加速計算平臺，專為萬億參數(shù)級別的復(fù)雜大模型訓(xùn)練而設(shè)計。這一里程碑式的進展，樹立了國產(chǎn)GPU技術(shù)的新標桿，有助于實現(xiàn)國產(chǎn)智算集群計算能力的全新跨越，將為我國人工智能領(lǐng)域技術(shù)與應(yīng)用創(chuàng)新、科研攻堅和產(chǎn)業(yè)升級提供堅實可靠的關(guān)鍵基礎(chǔ)設(shè)施。

夸娥萬卡智算解決方案具備多個核心特性：

▼ 超大算力，萬卡萬P：在集群計算性能方面，全新一代夸娥智算集群實現(xiàn)單集群規(guī)模超萬卡，浮點運算能力達到10Exa-Flops，大幅提升單集群計算性能，能夠為萬億參數(shù)級別大模型訓(xùn)練提供堅實算力基礎(chǔ)。同時，在GPU顯存和傳輸帶寬方面，夸娥萬卡集群達到PB級的超大顯存總?cè)萘?、每秒PB級的超高速卡間互聯(lián)總帶寬和每秒PB級超高速節(jié)點互聯(lián)總帶寬，實現(xiàn)算力、顯存和帶寬的系統(tǒng)性協(xié)同優(yōu)化，全面提升集群計算性能。

▼超高穩(wěn)定，月級長穩(wěn)訓(xùn)練：穩(wěn)定性是衡量超萬卡集群性能的關(guān)鍵。在集群穩(wěn)定性方面，摩爾線程夸娥萬卡集群平均無故障運行時間超過15天，最長可實現(xiàn)大模型穩(wěn)定訓(xùn)練30天以上，周均訓(xùn)練有效率在99%以上，遠超行業(yè)平均水平。這得益于摩爾線程自主研發(fā)的一系列可預(yù)測、可診斷的多級可靠機制，包括：軟硬件故障的自動定位與診斷預(yù)測實現(xiàn)分鐘級的故障定位，Checkpoint多級存儲機制實現(xiàn)內(nèi)存秒級存儲和訓(xùn)練任務(wù)分鐘級恢復(fù)以及高容錯高效能的萬卡集群管理平臺實現(xiàn)秒級納管分配與作業(yè)調(diào)度。

▼極致優(yōu)化，超高MFU：MFU是評估大模型訓(xùn)練效率的通用指標，可以直接反應(yīng)端到端的集群訓(xùn)練效率。夸娥萬卡集群在系統(tǒng)軟件、框架、算法等層面一系列優(yōu)化，實現(xiàn)大模型的高效率訓(xùn)練，MFU最高可達到60%。其中，在系統(tǒng)軟件層面，基于極致的計算和通訊效率優(yōu)化等技術(shù)手段，大幅提升集群的執(zhí)行效率和性能表現(xiàn)。在框架和算法層面，夸娥萬卡集群支持多種自適應(yīng)混合并行策略與高效顯存優(yōu)化等，可以根據(jù)應(yīng)用負載選擇并自動配置最優(yōu)的并行策略，大幅提升訓(xùn)練效率和顯存利用。同時，針對超長序列大模型，夸娥萬卡集群通過CP并行、RingAttention等優(yōu)化技術(shù)，有效縮減計算時間和顯存占用，大幅提升集群訓(xùn)練效率。

▼全能通用，生態(tài)友好：夸娥萬卡集群是一個通用加速計算平臺，計算能力為通用場景設(shè)計，可加速LLM、MoE、多模態(tài)、Mamba等不同架構(gòu)、不同模態(tài)的大模型。同時，基于高效易用的MUSA編程語言、完整兼容CUDA能力和自動化遷移工具Musify，加速新模型“Day0”級遷移，實現(xiàn)生態(tài)適配“Instant On”，助力客戶業(yè)務(wù)快速上線。

此外，摩爾線程聯(lián)合中國移動通信集團青海有限公司、中國聯(lián)通青海公司、北京德道信科集團、中國能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司（排名不分先后）分別就三個萬卡集群項目進行了戰(zhàn)略簽約，多方聚力共同構(gòu)建好用的國產(chǎn)GPU集群。（來源：摩爾線程）

上一篇：英業(yè)達閃耀IDCE 2024數(shù)據(jù)中心展，前沿AI服務(wù)器引領(lǐng)數(shù)據(jù)中心創(chuàng)新

下一篇：三項第一！秦淮數(shù)據(jù)領(lǐng)跑“2024年中國算力中心服務(wù)商十強”