趙繼壯:大家好,我們會(huì)經(jīng)常跟一些廠商對新產(chǎn)品新技術(shù)進(jìn)行交流,可能干的最多的事情結(jié)合運(yùn)營商的實(shí)際業(yè)務(wù)需求和機(jī)房環(huán)境提出尖銳的質(zhì)疑。比如整機(jī)柜已經(jīng)出現(xiàn)很多年了,這種形態(tài)確實(shí)密度高、又省電,但電信機(jī)房不都是A類機(jī)房,供電、承重會(huì)有問題,而且相比整機(jī)柜,定制化機(jī)架服務(wù)器可以實(shí)現(xiàn)更靈活的硬件配置和形態(tài)組合來滿足業(yè)務(wù)需求。運(yùn)營商在推SDN、SDS,都屬于用軟件定義數(shù)據(jù)中心,跟硬件資源池化的路線不太一樣。我們會(huì)問為什么一定需要硬件資源池化,原來服務(wù)器CPU、硬盤、內(nèi)存的配比都是經(jīng)過計(jì)算和實(shí)際驗(yàn)證的模型,我們不一定需要硬件資源池化,硬件資源池化反而挺難實(shí)現(xiàn)的,它的成本也比較高。

現(xiàn)在出現(xiàn)了單卡1.5PB的SSD,性能也無與倫比的強(qiáng)大,但我們現(xiàn)在需要那么高性能的SSD么?我們目前的分布式存儲(chǔ)系統(tǒng)的硬件配置可以通過水平擴(kuò)展?jié)M足當(dāng)前業(yè)務(wù)的需求。運(yùn)營商對硬件新技術(shù)的使用會(huì)稍微滯后一些,但不代表我們不關(guān)注這個(gè),我們是非常關(guān)注ODCC硬件的發(fā)展潮流,硬件的進(jìn)步比軟件更容易帶來產(chǎn)品的整體飛躍,我們在等待新產(chǎn)品性價(jià)比最高的時(shí)點(diǎn)。
我今天跟大家匯報(bào)的是通用服務(wù)器網(wǎng)絡(luò)功能硬件卸載,包括四方面內(nèi)容,VXLAN網(wǎng)卡硬件加速、RoCE網(wǎng)卡、Open vSwicth網(wǎng)卡卸載,VNF網(wǎng)卡卸載。為什么要做這件事情?你們可能很清楚,VXLAN網(wǎng)卡硬件加速、RoCE網(wǎng)卡很多年前都有,這是因?yàn)殡S著NFV的推進(jìn),運(yùn)營商云計(jì)算資源池會(huì)部署很多網(wǎng)絡(luò)密集型的應(yīng)用,這種情況下這兩個(gè)技術(shù)就很有必要了,因?yàn)橘Y源池中的CPU非常寶貴。比如我們定制化服務(wù)器里的存儲(chǔ)型服務(wù)器,它CPU的主頻包括核數(shù)都是很有限的,我們在在實(shí)際測試中發(fā)現(xiàn)個(gè)問題,就是在一些高負(fù)載的情況下用了NVME的SSD整體性能反而出現(xiàn)下降,網(wǎng)絡(luò)IO計(jì)算與存儲(chǔ)軟件本身的計(jì)算對CPU構(gòu)成了爭搶。VXLAN網(wǎng)卡硬件加速,VXLAN的重要性對于數(shù)據(jù)中心是毋庸置疑的。Open vSwicth網(wǎng)卡卸載,VNF網(wǎng)卡卸載這兩個(gè)部分內(nèi)容比較新,我們前期與廠商開過幾次會(huì)議進(jìn)行交流,但是到今天可能還沒有拿出一個(gè)能在現(xiàn)有資源池中廣泛使用的成熟方案,所以先不講了。
VXLAN網(wǎng)卡硬件加速,最有吸引力的是左上角這個(gè)圖,原來是17個(gè)VM現(xiàn)在是36個(gè)VM,CPU利用率降低到26%,當(dāng)然這得看是什么應(yīng)用,普通應(yīng)用達(dá)不到這種效果。右面這張圖把TCP分包的切片,收端的包組合都放到網(wǎng)卡硬件上來完成,網(wǎng)卡必須能解析出VXLAN中的TCP報(bào)文,解析不到TCP就沒有辦法進(jìn)行多隊(duì)列的支持。RSS多隊(duì)列可以把網(wǎng)卡接收到的數(shù)據(jù)均勻分布到多個(gè)有獨(dú)立中斷號(hào)的硬件隊(duì)列上,通過把中斷分配給不同的CPU并行處理,可大幅提高吞吐量。我們這個(gè)服務(wù)器模型,有一款模型確實(shí)對中斷隊(duì)列的多少?zèng)]有做限制,但是實(shí)際使用當(dāng)中發(fā)現(xiàn)有的廠商提供的網(wǎng)卡它的硬件隊(duì)列數(shù)特別少。比如右上角這張圖,所有數(shù)據(jù)都在一個(gè)硬件隊(duì)列里只能由一個(gè)CPU核心去處理,這個(gè)CPU的主頻是有限的,所以一下就出問題了。
VXLAN網(wǎng)卡硬件加速,主力廠商的虛擬化平臺(tái),如VMWare的NSX和Openstack都支持。網(wǎng)卡方面Mellanox、Broadcom、Cavium、Intel公司的主流網(wǎng)卡均支持。測試方法是使用iperf3工具進(jìn)行測試。這是公開測試的數(shù)據(jù),我們既需要一些業(yè)界的測試結(jié)果和我們自己的一些測試結(jié)果。TSO這個(gè)硬件加速對于整個(gè)系統(tǒng)的性能影響還是非常大的。RoCE網(wǎng)卡,現(xiàn)在IB交換機(jī)有點(diǎn)???????,現(xiàn)在支持RoCE的網(wǎng)卡比較多,我們?nèi)绻馨丫W(wǎng)卡上的RoCE的功能打開,不增加成本的情況下給數(shù)據(jù)中心的存儲(chǔ)網(wǎng)絡(luò)有一個(gè)比較大的性能提升。但RoCE有問題,普通Socket不兼容。
RoCE編程,我原來是一個(gè)資深軟件工程師,不看編程接口的話,我們始終在上面進(jìn)行選型是有問題的,我們只有看到代碼具體實(shí)現(xiàn),心里就比較靠譜了,做一些決策的時(shí)候我們就有底氣。RoCE的編程界面與TCP比較,它跟TCP都是需要服務(wù)器先bind,這個(gè)流程仍然是經(jīng)過內(nèi)核協(xié)議站,但是數(shù)據(jù)是不經(jīng)過內(nèi)核協(xié)議站的,這種設(shè)計(jì)是非常到位的。
OvS硬件卸載,我不重點(diǎn)展開,它確實(shí)比較復(fù)雜,普通網(wǎng)卡也可以做一部分的數(shù)據(jù)平面的OvS硬件卸載,一部分是智能網(wǎng)卡,智能網(wǎng)卡可以做全部的OvS硬件卸載,為什么要做OvS硬件卸載,我們知道OvS的功能相對來說比較固化,既然固化,網(wǎng)卡廠商有動(dòng)力把它完全做到硬件層面,這是一方面,另一方面現(xiàn)在隨著25G、50G的普及,虛機(jī)里面的流量特別大,這種大流量對于CPU的占用已經(jīng)非常高了,OvS本身在插大容量網(wǎng)卡的時(shí)候CPU的消耗非常高,這是有實(shí)際數(shù)據(jù)說話的,要是放到硬件里面實(shí)現(xiàn)確實(shí)是一個(gè)好方法,但是這個(gè)也有問題,它必須跟虛擬化層比較好的做兼容,要是不兼容的話這個(gè)事情還是沒有辦法做下去。
VNF硬件卸載,這個(gè)詞稍微新一點(diǎn),這張圖想說明現(xiàn)在的NFV都是控制層面,中國電信現(xiàn)在主要是vIMS,我們院主導(dǎo)vBRAS,vBRAS主要是控制平面帶一部分轉(zhuǎn)發(fā)平面,可以彌補(bǔ)傳統(tǒng)硬件BRAS 會(huì)話支持小的問題。NFV往后面演進(jìn)的話,轉(zhuǎn)發(fā)平面也是要NFV化的,涉及到幾種選型方案,一個(gè)是用大容量網(wǎng)卡,一個(gè)是用FPGA卡,一個(gè)是用可編程的智能網(wǎng)卡。這幾???????方面我們反復(fù)進(jìn)行討論,到底哪種現(xiàn)在沒有一個(gè)定論,我個(gè)人傾向于可編程智能網(wǎng)卡,可編程智能網(wǎng)卡是用C語言寫代碼很容易實(shí)現(xiàn),但是FPGA開發(fā),那個(gè)東西是并行的,調(diào)錯(cuò)不是那么好做的??删幊讨悄芫W(wǎng)卡跟各個(gè)主力廠商調(diào)研了一圈,它的價(jià)格并不是特別高,當(dāng)然價(jià)格跟采購量是有關(guān)系的,運(yùn)營商對于成本這塊看得非常重?,F(xiàn)在NFV存在一個(gè)問題,IT廠商進(jìn)入得不夠,VNF還是???多???運(yùn)???商的業(yè)務(wù)有那么復(fù)雜嗎,我認(rèn)為不那么復(fù)雜,運(yùn)營商的業(yè)務(wù)相對來說標(biāo)準(zhǔn)化。
謝謝郭組長、李博士,謝謝大家。

