5月12日,英偉達(dá)宣布,全球有9臺(tái)新型超級(jí)計(jì)算機(jī)正在使用Nvidia Grace Hopper超級(jí)芯片來(lái)加速科學(xué)研究和發(fā)現(xiàn),從而推動(dòng)高性能計(jì)算(HPC)產(chǎn)業(yè)轉(zhuǎn)向以AI驅(qū)動(dòng)。
Grace Hopper超級(jí)芯片
即將上線的這9臺(tái)超算包括法國(guó)的EXA1-HE、波蘭的Helios、瑞士的Alps、德國(guó)的JUPITER、美國(guó)UIUC的DeltaAI以及日本的Miyabi。
這9個(gè)系統(tǒng)的算力加在一起可以提供200 exaflops(即每秒兩百億億次浮點(diǎn)數(shù)計(jì)算)的處理能力。
此外,英國(guó)布里斯托大學(xué)的Isambard-AI和Isambard 3,以及美國(guó)洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室和德克薩斯高級(jí)計(jì)算中心的系統(tǒng)也開始使用Grace Hopper的硬件和平臺(tái)。
其中,Isambard-AI第一階段的超級(jí)計(jì)算機(jī)HPE Cray EX2500就配備了168個(gè)GH200超級(jí)芯片,成為有史以來(lái)最高效的計(jì)算機(jī)之一。
預(yù)計(jì)剩余的5280顆芯片將于今年夏天交付給Isambard-AI系統(tǒng),屆時(shí)其性能將提高約32倍,從而推動(dòng)數(shù)據(jù)分析、藥物發(fā)現(xiàn)、氣候研究和更多AI4Science領(lǐng)域的發(fā)展。
英偉達(dá)Grace Hopper超級(jí)芯片架構(gòu)是第一個(gè)真正的異構(gòu)加速平臺(tái),將Hopper GPU的高性能和Grace CPU的多功能性融合在單個(gè)芯片中,專為加速計(jì)算和生成式AI而打造。
GH200芯片架構(gòu)示意圖
該系列中的GH200芯片在AI和高性能運(yùn)算方面有非常強(qiáng)大的能力,單個(gè)GH200芯片由一個(gè)72核Grace CPU和一個(gè)H100 GPU組成,內(nèi)存容量最高可達(dá)624GB。
對(duì)于百億億級(jí)的高性能計(jì)算或萬(wàn)億參數(shù)級(jí)別的AI模型,芯片間的傳輸速度幾乎和芯片的計(jì)算能力一樣重要,服務(wù)器集群中的每個(gè) GPU之間需要進(jìn)行高速、無(wú)縫的通信,以實(shí)現(xiàn)大規(guī)模加速。
英偉達(dá)的NVLink技術(shù)就是為了解決通信問(wèn)題,GH200中的CPU和GPU通過(guò)NVLink C2C連接在一起,提供900GB/s帶寬,是第五代PCIe帶寬的7倍。
在單個(gè)服務(wù)器上,通過(guò)NVlink連接的雙GH200芯片可以提供比H100高3.5倍的GPU內(nèi)存容量和3倍的帶寬。
然而,英偉達(dá)并沒(méi)有公開GH200的價(jià)格,可以參考的是,目前H100系列官方售價(jià)約為4萬(wàn)美元。
英偉達(dá)進(jìn)軍超算
近兩年來(lái),英偉達(dá)不斷在服務(wù)器和高性能計(jì)算領(lǐng)域布局,與AMD、英特爾等公司展開競(jìng)爭(zhēng)。
盡管英偉達(dá)的GPU業(yè)務(wù)蒸蒸日上,已經(jīng)賺得盆滿缽滿,幾乎控制全部的AI GPU市場(chǎng),但進(jìn)軍高性能計(jì)算也非常重要,因?yàn)榻o超算系統(tǒng)提供硬件和平臺(tái)是一項(xiàng)規(guī)模巨大且利潤(rùn)豐厚的業(yè)務(wù)。
目前,世界各國(guó)都在不約而同地加大數(shù)據(jù)、基礎(chǔ)設(shè)施等方面的投資,以建造更高效的超算系統(tǒng),這些超算中心以及科技巨頭都可以成為Grace Hopper硬件及其平臺(tái)的潛在用戶。
為此,英偉達(dá)基于Arm架構(gòu)從頭構(gòu)建了Grace系列數(shù)據(jù)中心CPU,旨在創(chuàng)建高性能計(jì)算和AI超級(jí)芯片。
然而,在2月發(fā)布的HPCC基準(zhǔn)測(cè)試中,Grace還是落后于英偉達(dá)最新的Sapphire Rapids CPU,在八項(xiàng)測(cè)試中僅有三項(xiàng)更快。
但也有文章指出,Grace在散熱和成本方面存在優(yōu)勢(shì),這也是構(gòu)建數(shù)據(jù)中心需要考慮的關(guān)鍵因素。
最新一代的Grace Hopper超級(jí)芯片于去年8月推出,是世界上第一個(gè)配備HBM3e內(nèi)存的處理器,容量達(dá)到141GB,旨在處理「世界上最復(fù)雜的生成式人工智能工作負(fù)載,涵蓋大型語(yǔ)言模型、推薦系統(tǒng)和矢量數(shù)據(jù)庫(kù)」。
英偉達(dá)CEO黃仁勛穿著他標(biāo)志性的皮夾克,在世界頂級(jí)計(jì)算機(jī)圖形學(xué)會(huì)議SIGGRAPH 2023的講臺(tái)上發(fā)布了這款產(chǎn)品。
HBM(高帶寬內(nèi)存)各代之間的區(qū)別主要在于傳輸速度而非容量。相比AMD所使用的HBM3內(nèi)存,HBM3e提速約50%,將Grace Hopper中的數(shù)據(jù)傳輸速率從原來(lái)的4TB/s提升到5TB/s。
除了Grace Hopper系列,英偉達(dá)也在雄心勃勃地?cái)U(kuò)展更多的產(chǎn)品線,以滿足不同層次、不同場(chǎng)景的計(jì)算需求。
比如老黃在今年3月的GTC大會(huì)上展示的下一代Blackwell系列芯片屬于英偉達(dá),其中的GB200型號(hào)結(jié)合了一個(gè)Grace CPU和兩個(gè)B200 GPU,實(shí)現(xiàn)5 petaflops(每秒千萬(wàn)億次浮點(diǎn)計(jì)算)的處理能力,相比之下,H200 GPU的原始計(jì)算能力只有1 petaflops。
《巴倫周刊》分析師Tae Kim在推特中寫道,據(jù)匯豐銀行分析師估算,一顆GB200芯片的成本可能高達(dá)7萬(wàn)美元,而且英偉達(dá)更傾向于為客戶提供集成了多個(gè)芯片的服務(wù)器,而不是直接出售芯片,會(huì)進(jìn)一步抬高芯片的平均價(jià)格。
比如GB200 NVL36服務(wù)器配備36個(gè)GB200芯片,平均售價(jià)約為180萬(wàn)美元,搭載72個(gè)芯片的NVL72服務(wù)器售價(jià)可能達(dá)到300萬(wàn)美元。
加速AI驅(qū)動(dòng)的科學(xué)研究
英偉達(dá)對(duì)基于Grace Hopper的超算中心寄予厚望,認(rèn)為此舉將加速科學(xué)研究進(jìn)程。
高性能計(jì)算 (HPC)是推動(dòng)科學(xué)計(jì)算進(jìn)步的最重要工具之一,從天氣預(yù)報(bào)、能源勘探到計(jì)算流體動(dòng)力學(xué)和生命科學(xué),研究人員正在將傳統(tǒng)的模擬方法與人工智能、機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析和邊緣計(jì)算相融合,以解決重要的科學(xué)問(wèn)題。
英偉達(dá)超大規(guī)模和高性能計(jì)算副總裁Ian Buck在一份聲明中表示「人工智能正在加速對(duì)氣候變化的研究、加快藥物發(fā)現(xiàn),并在數(shù)十個(gè)其他領(lǐng)域取得突破」,「Nvidia Grace Hopper正成為高性能計(jì)算的重要組成部分,因?yàn)樗鼈兡軌蛟谔岣吣茉蠢眯实耐瑫r(shí)改造整個(gè)行業(yè)?!?/p>
來(lái)源:新智元