核心提示: 上周二,美國弗吉尼亞州AWS數(shù)據(jù)中心的一個(gè)人為錯(cuò)誤導(dǎo)致了大規(guī)模的服務(wù)中斷,這是4年以來遭遇的最大一次公有云中斷。不斷是否是AWS的問題,考慮到AWS有龐大的客戶群,以及使用AWS作為平臺(tái)的服務(wù)提供商為數(shù)眾多,所以更加放大了這次服務(wù)中斷的影響。
所有云都停機(jī)了。但是當(dāng)你主導(dǎo)市場的時(shí)候,你會(huì)受到更多的關(guān)注。
上周二,美國弗吉尼亞州AWS數(shù)據(jù)中心的一個(gè)人為錯(cuò)誤導(dǎo)致了大規(guī)模的服務(wù)中斷,這是4年以來遭遇的最大一次公有云中斷。不斷是否是AWS的問題,考慮到AWS有龐大的客戶群,以及使用AWS作為平臺(tái)的服務(wù)提供商為數(shù)眾多,所以更加放大了這次服務(wù)中斷的影響。
這樣的情況在AWS早期開拓市場的時(shí)候并不少見。每年發(fā)生兩次或者三次大事件是常態(tài),但是現(xiàn)在情況不一樣了。
盡管如此,考慮到最近的故障以及它遭受的審查風(fēng)暴,我們決定對過去進(jìn)行一次總結(jié),看看哪些事件是AWS最不堪回首的。
風(fēng)暴席卷:2016年6月
2016年6月悉尼遭遇風(fēng)暴,AWS在該地區(qū)的設(shè)施停電,很多EC2實(shí)例以及為一些知名公司托管關(guān)鍵負(fù)載的EBS卷接連出現(xiàn)故障。在那個(gè)周末,澳大利亞AWS可用區(qū)域的網(wǎng)站和在線服務(wù)中斷了近10個(gè)小時(shí),使得從銀行服務(wù)到披薩送貨都出現(xiàn)了問題。
DNS拒絕:2014年11月
2014年11月AWS的CloudFront DNS服務(wù)出現(xiàn)近2個(gè)小時(shí)的中斷。一些網(wǎng)站和云服務(wù)出現(xiàn)脫機(jī),因?yàn)樵诠收掀陂g內(nèi)容交付網(wǎng)絡(luò)無法滿足DNS請求。
黑色星期五:2013年9月
2013年9月13日黑色星期五發(fā)生的這次故障是由負(fù)載均衡問題所導(dǎo)致的,部分地區(qū)客戶受到影響。Amaozn解決了復(fù)雜均衡的接入問題,并增加了配置時(shí)間以防止后續(xù)這種問題的出現(xiàn)。雖然這次中斷只持續(xù)了大約2個(gè)小時(shí)且只影響到弗吉尼亞州的一個(gè)可用區(qū)域,但對Amazon來說,卻是一個(gè)要制定備份計(jì)劃的重要提醒。
圣誕節(jié):2012年12月
AWS在2012年的圣誕前夜遭遇服務(wù)中斷,這使得Netflix無法在這個(gè)在線電影交付最繁忙的時(shí)候正常運(yùn)轉(zhuǎn)。這家知名客戶因?yàn)檫@次不幸指責(zé)Amazon,成為這次事件的一個(gè)持久回憶。
背靠背:2012年6月
2012年6月,Amazon位于弗吉尼亞的數(shù)據(jù)中心出現(xiàn)服務(wù)中斷,導(dǎo)致運(yùn)營停止約6個(gè)小時(shí),影響到幾十家客戶。10月22日,弗吉尼亞數(shù)據(jù)中心的另一個(gè)問題導(dǎo)致很多客戶的網(wǎng)站無法正常運(yùn)行。兩次相繼發(fā)生的中斷事件使得很多企業(yè)領(lǐng)導(dǎo)者對采用云感到不安,當(dāng)時(shí)云這個(gè)理念剛剛在企業(yè)中開始被接受。
黑暗后的沉默:2011年4月
這是2011年的首次中斷事件,引起了人們對云有時(shí)候很脆弱的關(guān)注,并且說明,隨著事情的進(jìn)展溝通是最關(guān)鍵的。Amazon最大的一些客戶甚至離線數(shù)天時(shí)間。
當(dāng)客戶正在努力恢復(fù)運(yùn)行的時(shí)候,云計(jì)算巨頭Amazon卻一直沉默。一個(gè)星期過去了,Amazon才發(fā)布了關(guān)于這次事故一個(gè)非常技術(shù)的、冗長的文章。Amazon歸咎于“重新鏡像風(fēng)暴”,并向???????戶道歉。這次事件被很多人看作是如果不處理服務(wù)中斷事故會(huì)受到怎樣的教訓(xùn)。