今天非常榮幸有這個機會在ODCC分享一下我們在運營商智能化數(shù)據(jù)中心方面的一些探索,內(nèi)容是依托我們在人工智能領域做的一些基礎研究。
人工智能在這幾年取得了非常多的突破性的進展,從AlphaGo開始,在游戲領域、視覺領域和醫(yī)學領域等都取得了突破。數(shù)據(jù)中心正在成為支撐人工智能蓬勃發(fā)展的核心環(huán)節(jié)。電信運營商擁有大量的數(shù)據(jù)中心,我們現(xiàn)在也在開始考慮怎么樣把逐漸我們原有的數(shù)據(jù)中心,尤其是面向云業(yè)務的數(shù)據(jù)中心,能夠進一步演進到面向智能業(yè)務的數(shù)據(jù)???????心。
從現(xiàn)在技術的發(fā)展趨勢看,人工智能未來將是一系列技術的融合。在融合過程中,我們需要把云計算技術、大數(shù)據(jù)技術、5G技術、智能網(wǎng)絡技術、網(wǎng)絡安全技術、芯片技術以及區(qū)塊鏈等技術整合起來,共同促進新一代數(shù)據(jù)中心的發(fā)展。隨著整個產(chǎn)業(yè)向云化發(fā)展,我們即將迎來的是一個新的“智能+”的時代,以后各行各業(yè)我們面臨的挑????都是怎么樣把信息化的應用構建在我們智能化的基礎設施之上。
基于這樣的一些想法,我們也重新定義了技術體系。原來運營商的技術體系就是“云、管、端”,隨著智能化的發(fā)展,我們在此基礎上加了芯片,就是“云、管、端、芯”的體系。在云這一側,構建容器化的PaaS平臺,大數(shù)據(jù)平臺和深度學習的框架以及面向區(qū)塊鏈的服務;在“管道”這一側,現(xiàn)在需要研究5G、物聯(lián)網(wǎng)、SDN/NFV,在各個層???????上進行統(tǒng)一整合;在“端”這一側,隨著智能化的引入,我們需要考慮邊緣計算,需要考慮AR/VR;在芯片這一側,除了我們以前數(shù)據(jù)中心單一的CPU的架構以外,我們會考慮GPU、FPGA等。具體來說,包括制定面向智能業(yè)務的定制化服務器模型和相應的評測體系;包括怎樣引入人工智能技術來對我們的云管平臺進行優(yōu)化;在PaaS這一層,包括如何構建面向智能化業(yè)務的云服務,以及???于???些???面我們開展的一些智能化云應用。
在智能化的數(shù)據(jù)中心方面的探索,主要依托于北京研究院的中國電信云計算實驗室,我們以這個實驗室的一些研究為基礎,開展了智能化數(shù)據(jù)中心技術體系的探索,包括從底層芯片的架構到加速用SDK,從人工智能計算框架到不同業(yè)務的AI算法。
首先介紹一下我們現(xiàn)在做的人工智能定制化服務器這方面的一些探索。服務器的定制化可分成兩類,一類是淺度的定制,一類是深度定制:淺度定制主要是在產(chǎn)業(yè)界現(xiàn)有的各種GPU服務器產(chǎn)品中,挑選能滿足運營商通用智能化業(yè)務并且性價比高的服務器,根據(jù)其共同的硬件配置特點形成規(guī)范要求;深度定制就是像ODCC的天蝎計劃一樣制訂GPU服務器的硬件規(guī)范,由廠商按照規(guī)范生產(chǎn)服務器?,F(xiàn)階段我們還停留在淺度定制,主要是因為運營商的人工智能業(yè)務目前還在不斷發(fā)展中,還比較分散,還沒有形成需要數(shù)百顆GPU并行處理的大規(guī)模智能業(yè)務,所以硬件形態(tài)上不適宜過早固化。
定制化需要考慮芯片的發(fā)展,之前我們的數(shù)據(jù)中心都是以CPU為基礎建設的,在智能的時代我們需要更加復雜的芯片組合,比如我們需要考慮CPU和GPU怎么能夠形成一個有效的協(xié)同。在一些特定的業(yè)務場景,我們需要把CPU和FPGA結合起來在云端執(zhí)行計算;而在邊緣計算這一側,我們更多的會把FPGA和5G結合。這樣就形成了一個邊緣計算和云計???????相協(xié)同的智能化基礎平臺;再進一步是CPU+ASIC的架構和現(xiàn)在還在研究當中的“類腦”芯片,“類腦”芯片會是未來人工智能研發(fā)的一個很重要的方向。
智能化服務器的淺度定制需要考慮幾個方面的問題:第一個是在GPU+CPU的混合架構中,我們要考慮GPU和CPU之間的配比,以及顯存和內(nèi)存的配比。這方面我們前期也做了一些探索,比如4:2或者8:2這種配比就比較合理;在網(wǎng)絡側,由于機器學習需要涉及到大量的數(shù)據(jù)交換以及反復的迭代,所以對網(wǎng)絡的要求非常高,我們考慮對于需要多節(jié)點協(xié)同的HPC業(yè)務還是以IB網(wǎng)絡為好。如果是小規(guī)模的業(yè)務,使用以太網(wǎng)的方式更為經(jīng)濟,但要求網(wǎng)卡需支持RoCE;還有就是密度的考慮,GPU卡的密度不應低于2U4,要同時考慮電信機房的供電、承重能力。深度定制多采用獨立GPU機箱的方案,因為密度可以做到超高,又可使用級聯(lián)GPU機箱進行擴展。深度定制對GPU拓撲的設計考慮的比較多,因為并行計算需要GPU之間有高速的互聯(lián)通道,再就是GPU機箱與主機接口的設計問題。
第二個方面,我們來看下如何把AI的技術用于數(shù)據(jù)中心的運營優(yōu)化中。我們現(xiàn)在正在做的一些研究和探索主要是利用AI技術去做數(shù)據(jù)中心的節(jié)能。這個優(yōu)化既有有機房層面的,也有軟件層面的,主要難點在于怎么用AI深度學習的方法來發(fā)現(xiàn)各種業(yè)務的負載特點。這里我們做了很多實際調(diào)研,發(fā)現(xiàn)不同規(guī)模的數(shù)據(jù)中心它們實際上都有很多????能的空間。
我們通過和一些合作伙伴合作,針對我們的數(shù)據(jù)中心通過深度學習的技術進行了一些節(jié)能的研究。我們發(fā)現(xiàn)數(shù)據(jù)中心中各個業(yè)務的負載不是說全天都是在峰值或者都是直線,它會隨著不同的時間周期有上下的波動,我們設計了深度學習的算法可以去發(fā)現(xiàn)它的業(yè)務訪問規(guī)律,然后通過我們云管中心的平臺對不同業(yè)務使用的虛機資源進行????一調(diào)度,使相同業(yè)務負載特征的虛機集中到一起部署。這樣在業(yè)務空閑時段通過降低物理機的功耗就達到節(jié)能的效果。我們在云計算實驗室也做了一些前期的驗證和測試,結果表明在我們現(xiàn)有的幾種業(yè)務場景下,還是具有很高的節(jié)能效率。
除了在數(shù)據(jù)中心的能耗方面,我們也開發(fā)了一些應用,想通過這些應用來實際驗證面向智能化的數(shù)據(jù)中心怎樣才能更好的去支撐人工智能業(yè)務的開展。我們重點做了NLP領域的實踐,重點做如下幾個方面的探索,包括命名實體識別、事件的關聯(lián)發(fā)現(xiàn)、知識圖譜等,并在開發(fā)過程中使用了很多深度學習的算法。這是基于我們實驗室開發(fā)的????度搜索系統(tǒng),它可以從海量用戶行為數(shù)據(jù)里基于NLP實現(xiàn)自動命名實體識別以及知識圖譜的構建。我們還設計了大規(guī)模的圖計算模型,通過這個模型去挖掘?qū)嶓w之間的關聯(lián)關系。目前在我們的系統(tǒng)里大概構建了2000萬個實體節(jié)點,以及超過10億條關系的邊,我們整個系統(tǒng)可以用于比如說醫(yī)療、教育等等這樣的領域。在這個系統(tǒng)里我們也探索了很多基于人工智能的算法,包括序列分析、情感分析、命名實體識別以及卷積神經(jīng)網(wǎng)絡。
我們認為未來智能化的數(shù)據(jù)中心一定是按照AI芯片、AI的計算平臺、AI輔助的的云管平臺和AI應用的完整的垂直體系來構建的。所以我們也希望在后續(xù)研究過程中,能夠進一步和各個合作伙伴進行更加多方的合作,能夠共同去打造更好的面向智能化的數(shù)據(jù)中心。
我的發(fā)言到此結束,謝謝大家。

