為了降低數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)延遲,提高處理效率,RDMA技術(shù)(Remote Direct Memory Access,遠(yuǎn)程直接內(nèi)存訪問(wèn))的出現(xiàn)為新興業(yè)務(wù)的高效應(yīng)用提供了新的機(jī)遇。RDMA允許用戶態(tài)的應(yīng)用程序直接讀取和寫入遠(yuǎn)程內(nèi)存,無(wú)需CPU介入多次拷貝內(nèi)存,并可繞過(guò)內(nèi)核直接向網(wǎng)卡寫數(shù)據(jù),實(shí)現(xiàn)了高吞吐量、超低時(shí)延和低CPU開銷的效果。但是RDMA作為新技術(shù),如何更好的與現(xiàn)有以太網(wǎng)絡(luò)相結(jié)合(RoCE,RDMA over Converged Ethernet,基于融合以太網(wǎng)的RDMA),是一項(xiàng)很大的挑戰(zhàn)。歸根結(jié)底,就是RDMA技術(shù)給數(shù)據(jù)中心網(wǎng)絡(luò)交換體系(RDMA Switch)帶來(lái)了全新的變化,為了適應(yīng)這種變化,有太多的問(wèn)題亟待解決,包括新協(xié)議、新架構(gòu)、新設(shè)備形態(tài)、新技術(shù)等等。ODCC圍繞RDMA Switch理念,近年來(lái)開展了多種研究,數(shù)據(jù)中心三網(wǎng)合一項(xiàng)目就是基于此產(chǎn)生。
在以往數(shù)據(jù)中心中,不同類型的應(yīng)用對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)有著不同的要求。對(duì)于前端網(wǎng)絡(luò),為了跟DCN外的用戶終端對(duì)接,通常采用TCP協(xié)議。IP/以太網(wǎng)絡(luò)技術(shù)成為前端網(wǎng)絡(luò)主流技術(shù),成本低、擴(kuò)展性好。
存儲(chǔ)網(wǎng)絡(luò)一直在追求大帶寬高吞吐以充分發(fā)揮存儲(chǔ)盤和CPU的效率,上世紀(jì)90年代末采用同時(shí)期比Ethernet速率更高的FC技術(shù)(Fibre Channel,光纖通道)。進(jìn)入20世紀(jì),隨著更高速率的SSD(Solid-State Drive,固態(tài)硬盤)的規(guī)模應(yīng)用,特別是近來(lái)高速低時(shí)延的NVMe技術(shù)的出現(xiàn),存儲(chǔ)需要更高速更高效的網(wǎng)絡(luò)。RDMA技術(shù)因其更低時(shí)延更高吞吐、Ethernet技術(shù)因其遠(yuǎn)超F(xiàn)C的更高帶寬更低成本, 這兩個(gè)因素使得RDMA和Ethernet技術(shù)的結(jié)合即RoCE成為存儲(chǔ)網(wǎng)絡(luò)技術(shù)的新趨勢(shì)。存儲(chǔ)業(yè)務(wù)系統(tǒng)的開源軟件如Ceph的廣泛應(yīng)用進(jìn)一步加速了這個(gè)趨勢(shì)。
計(jì)算網(wǎng)絡(luò),典型代表為HPC等高性能業(yè)務(wù),低時(shí)延是其的極致追求,之前采用InfiniBand專網(wǎng)。但隨著RoCE技術(shù)的深入發(fā)展,Ethernet在計(jì)算網(wǎng)絡(luò)中的應(yīng)用也逐漸普遍。
鑒于以太網(wǎng)是生態(tài)最完整、應(yīng)用最廣泛的網(wǎng)絡(luò)技術(shù)路線,為了降低數(shù)據(jù)中心網(wǎng)絡(luò)的總擁有成本(TCO,Total Cost of Ownership),前端網(wǎng)絡(luò)、存儲(chǔ)網(wǎng)絡(luò)和計(jì)算網(wǎng)絡(luò)三張網(wǎng)絡(luò)的技術(shù)歸一到以太是不可避免的,這就“數(shù)據(jù)中心三網(wǎng)合一”。如圖1所示,利用三網(wǎng)合一技術(shù),可以大幅降低數(shù)據(jù)中心網(wǎng)絡(luò)的TCO,并顯著降低組網(wǎng)和運(yùn)維工作的復(fù)雜性。
三網(wǎng)合一:在一張網(wǎng)絡(luò)(Eth.)中提供不同業(yè)務(wù)
在ODCC數(shù)據(jù)中心三網(wǎng)合一項(xiàng)目中,業(yè)界開展了廣泛而深入的討論及技術(shù)研究,識(shí)別出目前RDMA技術(shù)在以太網(wǎng)大規(guī)模應(yīng)用中存在的挑戰(zhàn)與難點(diǎn)。其中針對(duì)大規(guī)模RDMA應(yīng)用時(shí)的死鎖問(wèn)題、TCP/RoCE流量混跑問(wèn)題、參數(shù)自動(dòng)調(diào)優(yōu)問(wèn)題的研究,得到了業(yè)界廣泛的認(rèn)可和共識(shí)。ODCC數(shù)據(jù)中心三網(wǎng)合一項(xiàng)目組共同研發(fā)的技術(shù)開展了詳盡的測(cè)試,測(cè)試結(jié)果表明,項(xiàng)目研究所得,能夠有效支撐三網(wǎng)合一場(chǎng)景下的大規(guī)模RDMA應(yīng)用,性能優(yōu)異。相關(guān)研究成果,將以《三網(wǎng)合一技術(shù)與應(yīng)用白皮書》與《三網(wǎng)合一測(cè)試規(guī)范》的形式在峰會(huì)上發(fā)布。
RDMA傳輸協(xié)議當(dāng)前業(yè)界關(guān)注的重點(diǎn),本項(xiàng)目還對(duì)下一代RDMA協(xié)議開展了探討。目前RDMA傳輸協(xié)議是RoCEv2,這一代RDMA傳輸協(xié)議依賴ECN、CNP等技術(shù),現(xiàn)在研究中已經(jīng)發(fā)現(xiàn)會(huì)有場(chǎng)景出現(xiàn)ECN失效、CNP失效等,這些問(wèn)題威脅到RoCEv2的根基,下一代RDMA傳輸協(xié)議的探索被提上日程。ODCC基于三網(wǎng)合一項(xiàng)目,在業(yè)界率先開展了下一代RDMA協(xié)議的討論,相關(guān)思考也將在白皮書中向業(yè)界發(fā)布。
更多相關(guān)信息披露,詳見2019年ODCC峰會(huì),歡迎各位蒞臨。
項(xiàng)目經(jīng)理:孫黎陽(yáng)
華為技術(shù)有限公司
中央研究院數(shù)據(jù)中心 標(biāo)準(zhǔn)產(chǎn)業(yè)總監(jiān)