8月22日2017開放數(shù)據(jù)中心峰會的數(shù)據(jù)中心分論壇上,阿里巴巴IDC研發(fā)事業(yè)部副總經(jīng)理閆昆為大家分享了《從四到零-IDC穩(wěn)定運營之道》。閆昆表示,他的主要工作是保障數(shù)據(jù)中心安全穩(wěn)定,提升效率,而到目前為止已經(jīng)實現(xiàn)連續(xù)648天無影響可用性故障。
大家在使用支付寶和微信時應(yīng)該遇到過中斷問題,不由得戲稱:再強健的系統(tǒng),也比不上藍翔技校的挖掘機!不得不說,造成數(shù)據(jù)中心業(yè)務(wù)中斷的有很多方面的因素,如斷電是我們經(jīng)常遇到的問題(阿里云香港的節(jié)點遇到的故障便造成了相當大的影響)。其次,數(shù)據(jù)中心還會遇到高溫問題(達到35度服務(wù)器就會宕機,將造成重大影響)。還有因為控制軟件,雷擊???????漏水、火災(zāi)、設(shè)備質(zhì)量等。
阿里巴巴IDC研發(fā)事業(yè)部副總經(jīng)理閆昆
數(shù)據(jù)中心是由七大子系統(tǒng)組成,包括防雷接地系統(tǒng)、供配電系統(tǒng)、空調(diào)系統(tǒng)、消防系統(tǒng)、綜合布線系統(tǒng)、安全防范系統(tǒng)、供電系統(tǒng)。可以說,數(shù)據(jù)中心有著很多的故障可能,這些其實是跟數(shù)據(jù)中心整體構(gòu)架有關(guān)的。
如何穩(wěn)定運營?
閆昆表示,穩(wěn)定性依托于七大子系統(tǒng),要實現(xiàn)每個子系統(tǒng)的穩(wěn)定運行,一定要全鏈路監(jiān)控,包括服務(wù)器側(cè)的供電狀態(tài),設(shè)備功耗,設(shè)備入風(fēng)溫度,CPU溫度等,設(shè)備側(cè)包括UPS變壓器等,監(jiān)控內(nèi)容包括功耗、告警情況等。
從長遠來講,我們是希望通過智能運營的方式,首先我們會對所有設(shè)備進行全面監(jiān)控,同時可以通過和設(shè)施聯(lián)動,進行設(shè)施調(diào)節(jié);通過智能算法,減小能耗,降低運營成本,最后是和業(yè)務(wù)聯(lián)動,實現(xiàn)系統(tǒng)識別風(fēng)險后動態(tài)調(diào)節(jié)遷移業(yè)務(wù);檢查維修保養(yǎng)這也是我們必須要做的。
其次,要有比較全面的應(yīng)急預(yù)案實現(xiàn)風(fēng)險管理。被動的應(yīng)急預(yù)案是否就夠了呢?每次應(yīng)急預(yù)案又是針對什么場景制定的?那么哪些應(yīng)急預(yù)案需要不斷演習(xí)優(yōu)化呢?這三個方面是一定要思考,思考怎么更好地做好風(fēng)險管理。另外數(shù)據(jù)證明,數(shù)據(jù)中心70%的故障都是人為造成的,良好的人為保養(yǎng)會提升單個設(shè)備乃至整個系統(tǒng)的可用性。
如果我們要保證百分之百的可用應(yīng)具備哪些條件?
閆昆表示,根據(jù)運營風(fēng)險庫可以對風(fēng)險進行排查,實現(xiàn)排查以后我們要從預(yù)防開始。一類風(fēng)險是影響可用性,二類風(fēng)險是影響系統(tǒng)冗余性,三類風(fēng)險是存在影響單設(shè)備性能的風(fēng)險。IDC的規(guī)模,在過去幾年一直實現(xiàn)著翻倍的增長,而阿里在2015年便建立風(fēng)險庫,篩查300+項風(fēng)險,解決率96%,未關(guān)閉重要風(fēng)險,共累計進行60+次演練,已識別機房級故障11次,成功規(guī)避了11次業(yè)務(wù)故障,影響業(yè)務(wù)故障從4個下降為0,持續(xù)648天無影響可用性故障。

