曾梓恩:大家下午好,到了一個(gè)愛犯困的時(shí)候,大家情緒有點(diǎn)低落。
今天主題是我在騰訊服務(wù)器實(shí)驗(yàn)室。之前李博給我布置任務(wù)的時(shí)候,我想我要講什么?我做了三年多的服務(wù)器實(shí)驗(yàn)室的事情,不如拿出來跟大家分享一下。
這是向業(yè)界第一次披露騰訊服務(wù)實(shí)驗(yàn)室的一些細(xì)節(jié)。
我從業(yè)時(shí)間不是太長(zhǎng),在行業(yè)里不太具有知名度,趁著這個(gè)機(jī)會(huì)推銷下自己,我叫曾梓恩,英文名Vizta Zeng,來自深圳的騰訊科技有限公司,我們公司的股票代號(hào)是00700。大家在微信上輸00700點(diǎn)HK,激活小程序就能看到股價(jià)走勢(shì)。我的崗位是騰訊技術(shù)組的系統(tǒng)工程師。
我在騰訊實(shí)驗(yàn)室,騰訊服務(wù)器實(shí)驗(yàn)室最早成立于2005年,比我進(jìn)公司的年頭還早8年左右。2017年得到了領(lǐng)導(dǎo)特批,進(jìn)行了擴(kuò)建,現(xiàn)在的規(guī)模已經(jīng)達(dá)到30多個(gè)機(jī)架,占地在IT實(shí)驗(yàn)室里是比較大的。我們有多種測(cè)試環(huán)境,除了廠商的基礎(chǔ)測(cè)試之外還多了很多內(nèi)容。比如針對(duì)現(xiàn)在發(fā)展迅速的云技術(shù)和質(zhì)量認(rèn)證的一些其環(huán)境我們都具備了。因?yàn)轵v訊的服務(wù)器研發(fā)資源都集中????咱們部門里面,所以每個(gè)月大概有50多單任務(wù),都是不同團(tuán)隊(duì)的同事來我們實(shí)驗(yàn)室進(jìn)行參觀、實(shí)地測(cè)試。
我今天的演講就到這里,因?yàn)槲野选拔液万v訊實(shí)驗(yàn)室”都講完了,但是李博不讓我下去。好吧,其實(shí)接下來才是重點(diǎn)。
今天分享的關(guān)于騰訊服務(wù)器實(shí)驗(yàn)室最關(guān)鍵的三個(gè)要點(diǎn)是建設(shè)、管理運(yùn)營、成就。
一個(gè)實(shí)驗(yàn)室,可能大家覺得,只是往里面放設(shè)備,或者每天待在里面是很無趣的。但實(shí)驗(yàn)室背后有很多故事,甚至有一些離我們崗位最近的運(yùn)維同事都不是很清楚實(shí)驗(yàn)室里發(fā)生的事情。我今天和大家分享一下。
首先講一下建設(shè),實(shí)驗(yàn)室建設(shè)是我在入司之前就開始了,我今天講的重點(diǎn)是實(shí)驗(yàn)室的擴(kuò)建。今年要響應(yīng)公司的發(fā)展戰(zhàn)略,對(duì)云計(jì)算這個(gè)行業(yè)進(jìn)行大力支持,所以我們服務(wù)器硬件部門作為云計(jì)算里最基礎(chǔ)也是被提要求最多的部門,我們配合云部門,規(guī)劃一個(gè)新的專區(qū)進(jìn)行實(shí)驗(yàn)室的擴(kuò)建。
在實(shí)驗(yàn)室的擴(kuò)建過程中,我跟領(lǐng)導(dǎo)討論。這個(gè)實(shí)驗(yàn)室咱們要用來干嘛?我們已經(jīng)有了實(shí)驗(yàn)室為什么還需要擴(kuò)建?經(jīng)過討論,我們總結(jié)出實(shí)驗(yàn)室的主要用途。
一個(gè)是基準(zhǔn)測(cè)試,簡(jiǎn)單來說每種服務(wù)器進(jìn)來騰訊自己團(tuán)隊(duì)先摸個(gè)底,再投產(chǎn)。二是質(zhì)量保障。最近,我們作為終端用戶,在早期參與到英特爾新發(fā)布的平臺(tái)硬件研發(fā)當(dāng)中。這個(gè)大項(xiàng)目種,我們對(duì)質(zhì)量保障方面的項(xiàng)目引進(jìn)到實(shí)驗(yàn)室來了。以上兩個(gè)功能在現(xiàn)有實(shí)驗(yàn)室已經(jīng)滿足的情況下,我們擴(kuò)建實(shí)驗(yàn)室的目的實(shí)際上就是為了滿足現(xiàn)在飛速發(fā)展的各種服務(wù)器和云平臺(tái)技術(shù)的認(rèn)證。實(shí)驗(yàn)室里能驗(yàn)證的云技術(shù)處于硬件和最終交付用戶的服務(wù)之間的一層,這一層包括所有剛才上臺(tái)同事講到的新興技術(shù)。技術(shù)發(fā)展前期,在實(shí)際業(yè)務(wù)還沒有代碼能夠真正跑在硬件的情況下,我們把這個(gè)新技術(shù)放到實(shí)驗(yàn)室里是最合適的。由于欠缺這方面的資源,所以我們建設(shè)這么一個(gè)實(shí)驗(yàn)室。搞清楚我們這個(gè)實(shí)驗(yàn)室要干嘛之后,后面就好辦了。
經(jīng)過整一個(gè)項(xiàng)目下來,總結(jié)了這三點(diǎn),實(shí)驗(yàn)室怎么建,有三個(gè)原則。
一個(gè)是真,它必須跟現(xiàn)網(wǎng)環(huán)境是非常真實(shí)的,我們經(jīng)常會(huì)出現(xiàn)在實(shí)驗(yàn)室驗(yàn)證完了之后上線不通過的事情,這種事情在接近百萬臺(tái)量級(jí)的服務(wù)器的數(shù)據(jù)中心里面是不可接受的,一天如果能交1萬臺(tái)服務(wù)器,交到全國數(shù)據(jù)中心,出現(xiàn)一半以上不能自動(dòng)化部署,這時(shí)候需要5千個(gè)人力同時(shí)進(jìn)行服務(wù)器的安裝,這是大規(guī)模運(yùn)營中不可接受的運(yùn)營事故。所以真實(shí)的實(shí)驗(yàn)室環(huán)境???????對(duì)現(xiàn)網(wǎng)運(yùn)營高要求的非常好保障手段。但是,實(shí)驗(yàn)室畢竟是個(gè)研發(fā)機(jī)構(gòu),我們不可能把半個(gè)數(shù)據(jù)中心的東西都搬到實(shí)驗(yàn)室里來,咱們投入的資源必須精打細(xì)算的,所以在保證真實(shí)的環(huán)境情況下我們必須要非常好的控制整個(gè)實(shí)驗(yàn)室的成本。比如:業(yè)務(wù)是不是可以在12臺(tái)機(jī)器的集群中,可以通過代碼的優(yōu)化和一些抽象手段,把它集中到3臺(tái)機(jī)器上面去跑?整個(gè)POC的過程就可以減少??資??的??賴,使實(shí)驗(yàn)室更好的運(yùn)轉(zhuǎn)。
最后是全,全好像跟簡(jiǎn)有一個(gè)矛盾,但實(shí)際上并不是這樣,我們說的全是因?yàn)楝F(xiàn)在各大IT設(shè)備廠家提供的各種技術(shù)種類繁多,我們必須要把所有東西都拿到實(shí)驗(yàn)室來認(rèn)證,才能對(duì)行業(yè)有比較好的了解,如果不全的話,實(shí)驗(yàn)室作為技術(shù)的前瞻預(yù)研機(jī)構(gòu),就會(huì)失去了領(lǐng)先性。
關(guān)于建設(shè)就說這么多,也許在座各位沒有什么機(jī)會(huì)參與到實(shí)驗(yàn)室建設(shè)當(dāng)中,我們就簡(jiǎn)單分享一下。但是,接下來的管理運(yùn)營章節(jié)是對(duì)中小企業(yè)比較有價(jià)值的東西。
我為什么這么說?因?yàn)楣芾硪粋€(gè)實(shí)驗(yàn)室就是在,管人,管物,管事,這三個(gè)管好了就能把一個(gè)很簡(jiǎn)單的IDC管起來。管物,測(cè)試物料的管理和測(cè)試資源,我們不僅要知道它在哪兒,我們還要知道誰在用;管人,我們現(xiàn)場(chǎng)會(huì)有大概十個(gè)個(gè)左右的供應(yīng)商外包人員供我們調(diào)遣,這些人是怎么管起來;管事,因?yàn)槭虑槊恳粋€(gè)月有50單的測(cè)試任務(wù)過來,怎么樣跟蹤到項(xiàng)目,這???????是一個(gè)很考究的事情。管這三個(gè)我們用了一套系統(tǒng),這套系統(tǒng)開發(fā)者就在隔壁服務(wù)器分會(huì)場(chǎng),我們騰訊的服務(wù)器管理平臺(tái)組長(zhǎng)王鎮(zhèn)。他的演講關(guān)于現(xiàn)網(wǎng)海量運(yùn)營系統(tǒng)的開發(fā)經(jīng)驗(yàn)。我們實(shí)際工作中發(fā)現(xiàn),現(xiàn)網(wǎng)海量運(yùn)營的經(jīng)驗(yàn)套用到實(shí)驗(yàn)室來是綽綽有余的。
線上的資產(chǎn)管理系統(tǒng),測(cè)試肯定跟IDC不一樣。測(cè)試環(huán)境變更頻繁,因?yàn)閷?shí)驗(yàn)室里面,經(jīng)常出現(xiàn)“今天要攢一個(gè)雙CPU的機(jī)器,明天要來5個(gè)硬盤的服務(wù)器”這種情況,備件會(huì)拆得比較散,我們按照一個(gè)出入庫的方式去管理服務(wù)器測(cè)試資源,落實(shí)到借測(cè)人,配合IDC嚴(yán)控。工單系統(tǒng)我們采用線上化的方式通知到外包人員,外包人員會(huì)經(jīng)常更換。我們?cè)趯?shí)驗(yàn)室里面會(huì)有個(gè)????一的規(guī)范培訓(xùn)和通知到外包人員進(jìn)行操作,不會(huì)存在換了一個(gè)人之后就不知道怎么操作的情況。測(cè)試平臺(tái)是一個(gè)我們正在做的項(xiàng)目,為了解決把自動(dòng)化的測(cè)試用例集合到測(cè)試平臺(tái)里的問題。整個(gè)服務(wù)器實(shí)驗(yàn)室都是聯(lián)網(wǎng)的系統(tǒng),往時(shí)跑一個(gè)基礎(chǔ)測(cè)試的話是操作人員登錄機(jī)器去敲命令。如果有測(cè)試平臺(tái)的話就可以遠(yuǎn)程進(jìn)行工具下發(fā)并且進(jìn)行數(shù)據(jù)回收,自動(dòng)化完成下來可以用少量的人力來完成這個(gè)事情。
最后說一下,騰訊實(shí)驗(yàn)室有什么成就。很慚愧,我們只做了一點(diǎn)微小的工作。在質(zhì)量保障方面我們有一個(gè)工廠預(yù)測(cè)試的環(huán)節(jié),所有服務(wù)器在服務(wù)器廠家出廠之前必須跑上騰訊的工廠預(yù)測(cè)試的程序,這個(gè)程序在我們實(shí)驗(yàn)室里面完成整個(gè)開發(fā)驗(yàn)證,保證在服務(wù)器廠家那端可以順利的跑通。最近新平臺(tái)的整機(jī)質(zhì)量認(rèn)證,我們?cè)趯?shí)驗(yàn)室部署了三個(gè)機(jī)柜的新平臺(tái)機(jī)器進(jìn)行長(zhǎng)期壓力測(cè)試,此外還有一些自研服務(wù)器設(shè)備也會(huì)在實(shí)驗(yàn)室里完成測(cè)試認(rèn)證。關(guān)于技術(shù)孵化的成就,除了高性能虛擬化網(wǎng)卡應(yīng)用之外,還有液冷服務(wù)器,新型存儲(chǔ)介質(zhì)應(yīng)用等領(lǐng)先與業(yè)界的項(xiàng)目在實(shí)驗(yàn)室完成了POC。已經(jīng)商用的案例,包括25G以太云主機(jī)、云存儲(chǔ)池化、海量數(shù)據(jù)遷移裝置等等。
按照去年我演講的套路,要開始升華主題了。今年也來做一次升華,我在騰訊的硬件實(shí)驗(yàn)室,我并不是一個(gè)蹲機(jī)房的人,我是一個(gè)云架構(gòu)師。這兩個(gè)事情是非常相似的,從底層數(shù)據(jù)中心到硬件設(shè)備再到上面的計(jì)算資源、網(wǎng)絡(luò)資源、存儲(chǔ)資源,實(shí)驗(yàn)室和線網(wǎng)是沒有什么區(qū)別的,最關(guān)鍵是服務(wù)。我們賣設(shè)備的同事最終的目標(biāo)是要賣服務(wù),因?yàn)檫呺H成本低,利潤率高。咱們實(shí)驗(yàn)室也是這個(gè)意思,在有限的計(jì)算網(wǎng)絡(luò)存儲(chǔ)資源里面我們要?jiǎng)?chuàng)造更多的服務(wù),這就是實(shí)驗(yàn)室最大的價(jià)值。
什么實(shí)驗(yàn)室云服務(wù)?除了有騰訊云的同事來參加的實(shí)驗(yàn)室技術(shù)Workshop之外,還有技術(shù)文章連載等等服務(wù)。我們定期會(huì)推出騰訊實(shí)驗(yàn)室內(nèi)部期刊,會(huì)對(duì)新型的設(shè)備和技術(shù)進(jìn)行內(nèi)部的宣傳,作為服務(wù)器技術(shù)的入口。我們團(tuán)隊(duì)通過這個(gè)很好的平臺(tái)對(duì)內(nèi)部進(jìn)行技術(shù)推廣和落地。還有一項(xiàng)增值服務(wù),因?yàn)樯钲谔鞖獗容^熱,同事們比較喜歡到有空調(diào)機(jī)房里面待著。
從實(shí)驗(yàn)室建設(shè)開始,我想我的前輩們可能也沒有想到,實(shí)驗(yàn)室能從這么一個(gè)房間,買一堆設(shè)備放進(jìn)去,到今天2017年我們可以出方案,我們可以和云平臺(tái)做生意,最后實(shí)現(xiàn)了我們的夢(mèng)想。我想每一個(gè)崗位上的同事多少都會(huì)經(jīng)歷從基礎(chǔ)做起到實(shí)現(xiàn)夢(mèng)想這樣的心路歷程,而這就是我在實(shí)驗(yàn)室最大的感悟。
愿各位的夢(mèng)想都能成真,謝謝。

