5月12日,英偉達(dá)宣布,全球有9臺新型超級計算機(jī)正在使用Nvidia Grace Hopper超級芯片來加速科學(xué)研究和發(fā)現(xiàn),從而推動高性能計算(HPC)產(chǎn)業(yè)轉(zhuǎn)向以AI驅(qū)動。
Grace Hopper超級芯片
即將上線的這9臺超算包括法國的EXA1-HE、波蘭的Helios、瑞士的Alps、德國的JUPITER、美國UIUC的DeltaAI以及日本的Miyabi。
這9個系統(tǒng)的算力加在一起可以提供200 exaflops(即每秒兩百億億次浮點(diǎn)數(shù)計算)的處理能力。
此外,英國布里斯托大學(xué)的Isambard-AI和Isambard 3,以及美國洛斯阿拉莫斯國家實(shí)驗室和德克薩斯高級計算中心的系統(tǒng)也開始使用Grace Hopper的硬件和平臺。
其中,Isambard-AI第一階段的超級計算機(jī)HPE Cray EX2500就配備了168個GH200超級芯片,成為有史以來最高效的計算機(jī)之一。
預(yù)計剩余的5280顆芯片將于今年夏天交付給Isambard-AI系統(tǒng),屆時其性能將提高約32倍,從而推動數(shù)據(jù)分析、藥物發(fā)現(xiàn)、氣候研究和更多AI4Science領(lǐng)域的發(fā)展。
英偉達(dá)Grace Hopper超級芯片架構(gòu)是第一個真正的異構(gòu)加速平臺,將Hopper GPU的高性能和Grace CPU的多功能性融合在單個芯片中,專為加速計算和生成式AI而打造。
GH200芯片架構(gòu)示意圖
該系列中的GH200芯片在AI和高性能運(yùn)算方面有非常強(qiáng)大的能力,單個GH200芯片由一個72核Grace CPU和一個H100 GPU組成,內(nèi)存容量最高可達(dá)624GB。
對于百億億級的高性能計算或萬億參數(shù)級別的AI模型,芯片間的傳輸速度幾乎和芯片的計算能力一樣重要,服務(wù)器集群中的每個 GPU之間需要進(jìn)行高速、無縫的通信,以實(shí)現(xiàn)大規(guī)模加速。
英偉達(dá)的NVLink技術(shù)就是為了解決通信問題,GH200中的CPU和GPU通過NVLink C2C連接在一起,提供900GB/s帶寬,是第五代PCIe帶寬的7倍。
在單個服務(wù)器上,通過NVlink連接的雙GH200芯片可以提供比H100高3.5倍的GPU內(nèi)存容量和3倍的帶寬。
然而,英偉達(dá)并沒有公開GH200的價格,可以參考的是,目前H100系列官方售價約為4萬美元。
英偉達(dá)進(jìn)軍超算
近兩年來,英偉達(dá)不斷在服務(wù)器和高性能計算領(lǐng)域布局,與AMD、英特爾等公司展開競爭。
盡管英偉達(dá)的GPU業(yè)務(wù)蒸蒸日上,已經(jīng)賺得盆滿缽滿,幾乎控制全部的AI GPU市場,但進(jìn)軍高性能計算也非常重要,因為給超算系統(tǒng)提供硬件和平臺是一項規(guī)模巨大且利潤豐厚的業(yè)務(wù)。
目前,世界各國都在不約而同地加大數(shù)據(jù)、基礎(chǔ)設(shè)施等方面的投資,以建造更高效的超算系統(tǒng),這些超算中心以及科技巨頭都可以成為Grace Hopper硬件及其平臺的潛在用戶。
為此,英偉達(dá)基于Arm架構(gòu)從頭構(gòu)建了Grace系列數(shù)據(jù)中心CPU,旨在創(chuàng)建高性能計算和AI超級芯片。
然而,在2月發(fā)布的HPCC基準(zhǔn)測試中,Grace還是落后于英偉達(dá)最新的Sapphire Rapids CPU,在八項測試中僅有三項更快。
但也有文章指出,Grace在散熱和成本方面存在優(yōu)勢,這也是構(gòu)建數(shù)據(jù)中心需要考慮的關(guān)鍵因素。
最新一代的Grace Hopper超級芯片于去年8月推出,是世界上第一個配備HBM3e內(nèi)存的處理器,容量達(dá)到141GB,旨在處理「世界上最復(fù)雜的生成式人工智能工作負(fù)載,涵蓋大型語言模型、推薦系統(tǒng)和矢量數(shù)據(jù)庫」。
英偉達(dá)CEO黃仁勛穿著他標(biāo)志性的皮夾克,在世界頂級計算機(jī)圖形學(xué)會議SIGGRAPH 2023的講臺上發(fā)布了這款產(chǎn)品。
HBM(高帶寬內(nèi)存)各代之間的區(qū)別主要在于傳輸速度而非容量。相比AMD所使用的HBM3內(nèi)存,HBM3e提速約50%,將Grace Hopper中的數(shù)據(jù)傳輸速率從原來的4TB/s提升到5TB/s。
除了Grace Hopper系列,英偉達(dá)也在雄心勃勃地擴(kuò)展更多的產(chǎn)品線,以滿足不同層次、不同場景的計算需求。
比如老黃在今年3月的GTC大會上展示的下一代Blackwell系列芯片屬于英偉達(dá),其中的GB200型號結(jié)合了一個Grace CPU和兩個B200 GPU,實(shí)現(xiàn)5 petaflops(每秒千萬億次浮點(diǎn)計算)的處理能力,相比之下,H200 GPU的原始計算能力只有1 petaflops。
《巴倫周刊》分析師Tae Kim在推特中寫道,據(jù)匯豐銀行分析師估算,一顆GB200芯片的成本可能高達(dá)7萬美元,而且英偉達(dá)更傾向于為客戶提供集成了多個芯片的服務(wù)器,而不是直接出售芯片,會進(jìn)一步抬高芯片的平均價格。
比如GB200 NVL36服務(wù)器配備36個GB200芯片,平均售價約為180萬美元,搭載72個芯片的NVL72服務(wù)器售價可能達(dá)到300萬美元。
加速AI驅(qū)動的科學(xué)研究
英偉達(dá)對基于Grace Hopper的超算中心寄予厚望,認(rèn)為此舉將加速科學(xué)研究進(jìn)程。
高性能計算 (HPC)是推動科學(xué)計算進(jìn)步的最重要工具之一,從天氣預(yù)報、能源勘探到計算流體動力學(xué)和生命科學(xué),研究人員正在將傳統(tǒng)的模擬方法與人工智能、機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析和邊緣計算相融合,以解決重要的科學(xué)問題。
英偉達(dá)超大規(guī)模和高性能計算副總裁Ian Buck在一份聲明中表示「人工智能正在加速對氣候變化的研究、加快藥物發(fā)現(xiàn),并在數(shù)十個其他領(lǐng)域取得突破」,「Nvidia Grace Hopper正成為高性能計算的重要組成部分,因為它們能夠在提高能源利用效率的同時改造整個行業(yè)。」
來源:新智元