大家下午好,我叫陸睿,來自阿里巴巴集團(tuán),在阿里巴巴主要負(fù)責(zé)數(shù)據(jù)中心光網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)和今天。今天很榮幸再次來到這里給大家做技術(shù)分享。我今年的技術(shù)分享題目是下一代的數(shù)據(jù)中心光互連技術(shù)的思考。2016年以前我們阿里巴巴就已經(jīng)使用在服務(wù)器到交換機(jī)這層,使用實(shí)際的開放的AOC。當(dāng)時(shí)因?yàn)槲覀兛紤]到光互連在交換機(jī)連接承載的業(yè)務(wù)量比較大,所以我????開放的角度慢一點(diǎn)。我們在2016年做了40G光模塊的試點(diǎn),整個(gè)結(jié)果看上去還不錯(cuò),也堅(jiān)定了我們在開放光模塊AOC這個(gè)路線往下走的決心。到今年我們阿里的網(wǎng)絡(luò)應(yīng)該說全面的開始部署開放的25G、100G、10G、40G,都在用開放的AOC以及光模塊。
后面我會稍微分享一下我們在這塊的經(jīng)驗(yàn)。首先我講的是在過去的一年,我們的云計(jì)算、互聯(lián)網(wǎng)、AI的各種發(fā)展,使得我們數(shù)據(jù)中心的發(fā)展非???,無論是數(shù)據(jù)中心的建設(shè)量還是數(shù)據(jù)中心性能提升的需求都變得越來越迫切。到2019年我們的數(shù)據(jù)中心光模塊的發(fā)貨量達(dá)到1000萬,2021年市場規(guī)模達(dá)到49億美元,增長非常的迅速。從以往的技術(shù)主要的驅(qū)動力,是在電信的????絡(luò),大家知道像路由器、光傳輸,對帶寬的增長需求更迫切。但是從我們現(xiàn)在看到的情況來看,以100G為例,在路由器和傳輸上面出現(xiàn)會比數(shù)據(jù)中心的交換機(jī)上出現(xiàn)早好幾年。但是400G這一代,CFP的模塊,去年有產(chǎn)品出現(xiàn),但是數(shù)據(jù)中心100G的光模塊有望在今年年底出現(xiàn),差距就變成了一年時(shí)間,到未來的時(shí)間需求可能會一樣。從另外一個(gè)角度來說數(shù)據(jù)中心對光模塊的特性需求跟電信網(wǎng)絡(luò)不太一樣,它對小型化、高密度、低功耗、低成本都有更高的要求。也就是說我們認(rèn)為數(shù)據(jù)中心現(xiàn)在已經(jīng)成為了推動光通訊技術(shù)發(fā)展的另外一個(gè)引領(lǐng)。
另外,我們看到數(shù)據(jù)中心的硬件、軟件,都呈現(xiàn)了全面開放的趨勢。數(shù)據(jù)中心的基礎(chǔ)設(shè)施對于我們的最終用戶來說越來越趨向于白盒化,不再是我們看不見的黑盒子。這個(gè)好處除了有成本的降低以外,也使我們更加能觸摸到內(nèi)部的技術(shù),從而也能夠把真實(shí)的需求更快的反映到上游的供應(yīng)商,把我們的需求變成現(xiàn)實(shí),這也是為什么到了100G時(shí)代各種各樣的MIC標(biāo)準(zhǔn)出????,不像以前的標(biāo)準(zhǔn)了,就是因?yàn)閿?shù)據(jù)中心的用戶需求也變得多樣化起來。
我們在開放的光模塊AOC的經(jīng)驗(yàn)分享是五點(diǎn),第一個(gè)就是技術(shù)規(guī)范的制定,我們認(rèn)為這點(diǎn)很重要。大家雖然也知道像光模塊、AOC都有標(biāo)準(zhǔn)組織制定了所有的光電參數(shù),或者是定義。我們在集成的時(shí)候還是經(jīng)常會發(fā)現(xiàn)有光模塊或者AOC插到系統(tǒng)設(shè)備利,要么就是不識別、不工作、不穩(wěn)定,或者是訪問信息發(fā)現(xiàn)上來的都是不正確的。原因就是雖然標(biāo)準(zhǔn)在那里,但是大家在實(shí)現(xiàn)的過程中,設(shè)備商和光模塊的供應(yīng)商他們會有理解不一樣的地方,或者為了快速推出產(chǎn)品,標(biāo)準(zhǔn)上面并沒有做到全部的適配。比如說對內(nèi)容的理解造成的差異,或者是高速信號之間的匹配,尤其到了像25G這個(gè)時(shí)代光模塊AOC里都有CDR,還有均衡,這些參數(shù)的配合造成的問題都比以前像10G、1G的光模塊來說來的多。還有有的不支持400K,或者(英),導(dǎo)致獲取信息的錯(cuò)誤,這些都是我們???????不斷的摸索當(dāng)中要制定的規(guī)則,使大家在集成的過程中出現(xiàn)的問題更少。
第二個(gè)重要,就是集成測試的重要性。要結(jié)合到規(guī)范一起來做的。我們集成設(shè)計(jì)中發(fā)現(xiàn)的問題要快速的反饋到我們的規(guī)格當(dāng)中,這兩條能夠使得整個(gè)的光模塊用在系統(tǒng)設(shè)備利變得更加的順滑。
再一個(gè)就是性能、穩(wěn)定性、可靠性的挑戰(zhàn)。大家知道阿里的云計(jì)算業(yè)務(wù)都是非常關(guān)鍵的,在光通訊的整個(gè)速率的提升過程中,效率不斷的提升,1×10的負(fù)2次方的馬力,是16分鐘多,10G的時(shí)候可能是100秒,100G的話就是10秒。同樣的霧碼率的情況下,數(shù)據(jù)增長的情況下會被人為感知的越來越明顯。實(shí)際上我們數(shù)據(jù)中心不愿意看到任何的霧碼,尤其是現(xiàn)在的存儲業(yè)務(wù)對???????包來說越來越敏感,所以我們對光模塊的性能其實(shí)要求是在提高,而不是降低,同時(shí)我們的業(yè)務(wù)對穩(wěn)定性、可靠性要求更高,我們對光模塊的廠家有2000小時(shí)的這種測試的要求。
再一個(gè)就是我們使用開放的光模塊的過程中,我們也要面臨這種建設(shè)運(yùn)維的挑戰(zhàn)。因?yàn)樵谶^去我們對光模塊都是由系統(tǒng)設(shè)備提供,現(xiàn)在全部是由用戶自己進(jìn)行建設(shè)和運(yùn)維,出現(xiàn)任何問題,我們自己要有定位問題的能力,同時(shí)也要有責(zé)任的劃分,以便于快速明確到責(zé)任方。
更重要的是我們在實(shí)踐當(dāng)中要不斷的去總結(jié),怎么樣去發(fā)現(xiàn)這些問題,流程上的問題、技術(shù)上的問題,最終理清整個(gè)的流程思路,使得整個(gè)開放的第三方的光模塊的AOC在數(shù)據(jù)中心不會出現(xiàn)任何的問題。
接下來講一下我們阿里的數(shù)據(jù)中心網(wǎng)絡(luò)演進(jìn)的方向。這個(gè)圖是典型的數(shù)據(jù)中心網(wǎng)絡(luò)的架構(gòu)圖,這里我們的光互連技術(shù)分為兩塊,第一塊是從服務(wù)器到接入交換機(jī),這層通常用AOC作為傳輸介質(zhì)。然后到核心交換機(jī)這塊,我們用的一般是光模塊。這個(gè)速率可以看出,它們的速率倍數(shù)是4倍的關(guān)系,之前可能是千兆和萬兆,是10倍的關(guān)系。但是10G以后,也面臨速率提升的瓶頸,所以我們都是4倍的關(guān)系。因?yàn)榉?wù)器到接入交換機(jī)的距離相對比較近,一般是用線纜的方式,就是AOC。到交換機(jī)和交換機(jī)的連接距離通常比較長,我們是采用光模塊加光纜的方式。過去大家的部署是10G、40G,今天部署的是25G、100G,未來我們希望到100G、400G的網(wǎng)絡(luò),接入的100G,到上面交換機(jī)的互聯(lián)是400G。單通道25G往下一代是50G,為什么我們?nèi)ヌ^了50G和200G,因?yàn)槲覀冇X得無論是上游的供應(yīng)商還是用戶,我們投入了這么多的精力提升這個(gè)速率,如果帶來的好處只有兩倍,這是我們覺得不太好的。我們希望一步跳到400G、100G的速率。
這頁是數(shù)據(jù)中心網(wǎng)絡(luò)的演進(jìn)時(shí)間表,在OFC上面曾經(jīng)預(yù)測過數(shù)據(jù)中心網(wǎng)絡(luò)的速率提升應(yīng)該是三年一代,從實(shí)際開始我們開始比較符合這個(gè)演進(jìn)的方向。大概2013年、2014年左右開始部署10G、40G,三年之后的今年開始批量部署25G、100G,我們預(yù)測到2020年可能會批量部署100G、400G的網(wǎng)絡(luò)。
這頁我們介紹一下未來400G光模塊可能的封裝,大家知道光模塊的封裝有大有小。比較大的封裝便于容納更多的光元器件進(jìn)去,可以提供更多的接口,可以容忍的光模塊等級也更高一些。CDFP和CDP8就是這樣的,這是早期使用的方式,像CDFP和CFP8只能放16個(gè),功耗可以到12W,每U的帶寬最高提供6.4T。這兩個(gè)封裝因?yàn)檫^大,我們不認(rèn)為它會是數(shù)據(jù)中心交換機(jī)的選擇,更多應(yīng)該是電信網(wǎng)絡(luò)里面的選擇。電信號的通道數(shù)是16個(gè)25G,也就是說以現(xiàn)在的service的能力就可以使用這樣的光模塊。我們數(shù)據(jù)中心的400G光模塊更可能的封裝應(yīng)該是OSPF和QSFP-DD,相對來說大一些,都是8×50G的電信號接口,尺寸上面每U可以容量的端口數(shù)差異不大,32個(gè)和36個(gè)。整體上來講它們在每為U提供的帶寬,12.8T和14.4T。我們更傾向于QSFP-DD,大小和遺忘的QSP28是一樣的,對于我們數(shù)據(jù)中心的駐場人員來說,這個(gè)光模塊的大小、外形沒有大的變化,對于我們運(yùn)維的人來講更容易識別,也不存在另外的風(fēng)險(xiǎn)。同時(shí)它依然是小型化,對于系統(tǒng)設(shè)備商來說設(shè)計(jì)可以維持以前的力度,對于我們架構(gòu)設(shè)計(jì)上來說可以沿襲以往的。QSFP112是100G的,短期內(nèi)應(yīng)該還很難做到實(shí)現(xiàn)這樣的低成本的4×100G的電通道的方案。這了這些可插拔的模塊封裝之外,還有板載的方案,這對于數(shù)據(jù)中心用戶???????因?yàn)椴豢梢袁F(xiàn)場操作,這是比較大的痛點(diǎn),除非是我們這種可插拔的封裝實(shí)在搞不定,否則我們不會選擇這種板載的方案的。
這張圖是阿里的數(shù)據(jù)中心從去年的10G、40G,到未來的25G、100G的方案。10G是AOC,40G主要是ESR4,2013年部署的。25G、100G是今年部署的,但是由于100G只能到100米PSM4,所以要解決100米以外的更長的距離。未來的100G、400G網(wǎng)絡(luò),我們初步的規(guī)劃是接入層用100G的SSFP56-DD。整個(gè)演進(jìn)過程很清晰,從接入數(shù)據(jù)10G到100G,端口的密度在交換機(jī)上都可以保持不變,同時(shí)帶寬的密度增????了2.5倍和10倍。
接下來介紹一下具體為什么選擇這樣的方案,在10G、40G時(shí)代,其實(shí)標(biāo)準(zhǔn)不是很多,主要就是40G的SR4、ESR4,還有LR4,對數(shù)據(jù)中心的連接來說300米已經(jīng)覆蓋了絕大多數(shù)的連接場景,這也是為什么我們在40G這個(gè)時(shí)代大多數(shù)都是在選擇多模的方案。極少數(shù)的超過300米選用40G的LR4lite或者LR4單模方案。10G接入主要以AOC方案為主,距離的限制小,成本也是可以接受的程度。
到了今天的25G、100G的時(shí)代,我們現(xiàn)在看到的是100G的SR4多模塊的方案技術(shù)也比較成熟,但是它只能解決最長到100米的距離,這個(gè)距離是覆蓋了大多數(shù)的場景,但是還有很多超過70米、100米的連接,我們選擇PSM4,這個(gè)更有優(yōu)勢。對于中國的多數(shù)數(shù)據(jù)中心可以接受多模和單模的混合,極少數(shù)采用單一的結(jié)構(gòu)化的,在美國那邊更多的采用的是結(jié)構(gòu)化布線,可能會用全單???????的方案。25G接入,我們現(xiàn)在看到的是AOC目前的成本還是比較高的,但是在一個(gè)快速下降的通道當(dāng)中。DAC無論是在性能還是運(yùn)維界面不及AOC的方案,但是成本目前來看比較低,所以某些地方還有應(yīng)用的空間。
到了下一代的100G和400G的網(wǎng)絡(luò),我們的高速信號實(shí)現(xiàn)變得越來越難。我們以前知道整個(gè)光連接提升帶寬的方法其實(shí)總的來說有兩種,第一種就是我提高每個(gè)通道的比特速率,第二種就是增加我們的通道數(shù)。提升比特速率有兩個(gè)方法,第一個(gè)就很簡單,我們直接提升波特率,第二種可能就是保持波特率不變,我們使用更高的調(diào)試編碼的格式。在千兆,不到萬兆的時(shí)???????,因?yàn)檫@時(shí)候技術(shù)的瓶頸還沒到,我們直接就提升波特率。但到了10G以上,我們整個(gè)無論是電也好、光也好,提升波特率變得越來越難,所以不得不采用編碼的方式增加帶寬。另外一種就是增加波長通道和增加光纖通道,這會帶來成本的增加。
未來的100G接入的解決方案,我們分析大概應(yīng)該會有三代的演進(jìn)過程。第一代也就是現(xiàn)在了,現(xiàn)在我們其實(shí)也有少量的100G接入的應(yīng)用場景,按照現(xiàn)在的技術(shù)而言不得不選用QS28的電信模塊,第二代我們會配合下一代的IC芯片,無論是電也好,光也好,都變成2×50G的實(shí)現(xiàn)方式。未來的第三代,就是單通道的100G,對于這個(gè)100G的接入來說都有各自的應(yīng)用場景,AOC主要負(fù)????比較長一點(diǎn)的,銅纜負(fù)責(zé)短一點(diǎn)的連接。
到400G的解決方案,發(fā)展分為四代,通常來說光的速率提升比電快一點(diǎn),第一代可以看到現(xiàn)在已經(jīng)有產(chǎn)品出現(xiàn),就是用CPF8這樣的光模塊封裝,電信化仍然是16和25G,光信號在這塊在多模還是16和25G,光的話現(xiàn)在已經(jīng)有8×50G的FR8和L8的方案。第二代的話整個(gè)電信號升級到50G,8個(gè)通道。單模有FR8,LOR8,電信號和光的數(shù)據(jù)完全配合上。第三代的產(chǎn)品電信號還是50G,光可????提升到100G,有三種方案。SR4的話要取決于多模的技術(shù)到底有沒有潛力能夠提升到單通道100G的方案。到最后第四代從電到光都提升到單通道100G。過去不存在光電信號不匹配的時(shí)候成本應(yīng)該是最低的,現(xiàn)在如果出現(xiàn)光電信號不配合的話,需要增加gearbox的技術(shù)。
在阿里下一代100G的接入方案,目前來說傾向于在接入層用100G的SR2AOC,這種AOC主要能解決最長到25米到30米的接入連接,優(yōu)點(diǎn)很明顯,距離長,整個(gè)限制少。缺點(diǎn)就是因?yàn)樾酒湍K開發(fā),標(biāo)準(zhǔn)化進(jìn)展會比較慢一點(diǎn),涉及到的初期成本也會比較高。銅的連接方案主要的優(yōu)點(diǎn)可以用25G的DAC的,很快開發(fā)出產(chǎn)品,缺點(diǎn)也明顯,距離短,整個(gè)的纜會更粗,大規(guī)模部署的性能也會是一個(gè)風(fēng)險(xiǎn)。400G的光互連方案先看看多模的,有的方案是SR4.2或者SR8,現(xiàn)在的潛力已經(jīng)很難挖掘了,但是VCSEL本身的成本優(yōu)勢非常大,如果在50G可以實(shí)現(xiàn)的話還是有應(yīng)用成本的,模塊的成本可以控制的很低。SR16不太建議使用這個(gè)。SR8和SR4.2雖然符合我們的要求,但是從我們以往的運(yùn)維來看,還是希望傾向于用4.2,需要兩個(gè)通道的多模,這樣的話可能會使用寬帶多模光纖,光纖成????哪個(gè)更低,我們認(rèn)為還是八星的寬帶多模更低一些。所以多模的方案在400G的時(shí)代能不能進(jìn)行下去,關(guān)鍵是在光纖,如果光纖加上光模塊整體成本比較單模有優(yōu)勢的話,還是有它的生命力的。
接下來是400G的單模方案,單模讓按我們認(rèn)為比較清晰簡單,因?yàn)槲覀兊臄?shù)據(jù)中心里面最大長度500米能夠覆蓋絕大多數(shù)的應(yīng)用,所以DR4應(yīng)該是主力的單模方案,可以用在PSM4的8芯的單模光纖,光纖成本可接受,不需要合波分波的器件,實(shí)現(xiàn)DR4里面也有更多的優(yōu)勢。FR4也有應(yīng)用場景,超過500米的跨樓的應(yīng)用可能會用到,這兩個(gè)方案是我們????為未來數(shù)據(jù)中心主要的方案。
接下來是我們要選擇的400G光模塊的封裝,封裝剛才前面也提到了,QSFP-DD是是一個(gè)選擇,支持可插拔,保持和以往一樣的運(yùn)維習(xí)慣和密度,而且可以向下兼容,也可以向上平滑,升級到未來的400G的,演進(jìn)路線非常清晰。
100G接入模塊的封裝,因?yàn)樽兂闪藘赏ǖ?,兩通道的話如果還沿用以前的4通道封裝,不利于小型化。我們阿里也是在SFP的基礎(chǔ)上做了一下創(chuàng)新,聯(lián)合了一些供應(yīng)商一起推動并建立了SFP-DD的MSA組織,增加了一倍的高速信號。最重要的意義在于填補(bǔ)了現(xiàn)在光模塊封裝里面兩通道的空白。選擇它的理由就是因?yàn)榉庋b比QSDB更小,適合我們的數(shù)據(jù)中心,也保持了兼容性,可以兼容25G、50G,可能有些客戶會需要這樣的應(yīng)用。
所以整個(gè)來說我們看到這是阿里未來的100G、400G的規(guī)劃,整個(gè)我們的方案目前來說并沒有成為最終的未來真正落地的方案,但是我們希望能拋磚引玉,能夠使在ODCC的環(huán)境下和上游的供應(yīng)商一起討論,在一起溝通,能夠在未來的100G、400G網(wǎng)絡(luò)里確定大家共同的方向,謝謝大家。

