如今,在超大型數(shù)據(jù)中心運營商(如亞馬遜公司)認為市場無法提供或自己建設數(shù)據(jù)中心成本更低的時候,就會考慮采用自己的基礎設施技術進行建設。
亞馬遜公司內(nèi)部應用的一項技術成為了規(guī)避該公司的一位頂級基礎設施工程師所描述的開關電器供應商產(chǎn)品設計方式的優(yōu)先事項。
電氣開關柜
正是這個問題可能導致去年夏天的美國達美航空公司數(shù)據(jù)中心停機,最終導致達美航空公司1.5億美元的損失。此外,2013年美國橄欖球聯(lián)盟的年度冠軍賽“超級碗”的停電事故也讓人深思。亞馬遜網(wǎng)絡服務副總裁兼杰出工程師JohnHamilton在其職業(yè)生涯中管理的數(shù)據(jù)中心遇到了這種失敗。
他在個人博客的一篇文章中寫道:“我曾在更大的數(shù)據(jù)中心工作,并在工作中親自經(jīng)歷過兩次停電事故?!盚amilton在加入亞馬遜公司之前,曾經(jīng)在微軟公司大約工作了十年時間。
Hamilton并沒有在他的博客文章中引用達美航空公司的案例,但去年夏天只有這家航空公司數(shù)據(jù)中心發(fā)生中斷故障,該航空公司后來公布了上億美元的損失。
亞馬遜公司設計的避免這種電力中斷的技術是固件,它決定了當數(shù)據(jù)中心的電力中斷時,電氣開關應該進行的處置措施。Hamilton表示,傳統(tǒng)的供應商固件優(yōu)先考慮防止損壞昂貴的備用發(fā)電機,從而避免完全的數(shù)據(jù)中心中斷故障。亞馬遜公司(也許大多數(shù)其他大型數(shù)據(jù)中心運營商)都傾向于寧愿面對上百萬美????設備的損失風險,而不愿面臨大范圍的應用程序的中斷風險。
當電力設施停電(大多數(shù)時候都是這種情況)發(fā)生時,通常開關柜設備等待幾秒鐘再進行動作,以等待電力立即恢復(這是最常見的情況),如果沒有恢復,開關柜將會動作啟動發(fā)電機,而數(shù)據(jù)中心的IT設備將會采用UPS供電系統(tǒng)的后備電源。一旦發(fā)電機運行穩(wěn)定,就會成為IT系統(tǒng)的主要電力來源。
去年美國達美航空公司數(shù)據(jù)中心停電歸因于開關柜“鎖定”了亞特蘭大航空公司的發(fā)電機,沒有及時進行切換。而這個功能是數(shù)據(jù)中心或供電設備中的大多數(shù)開關柜感測到市電異常而設計的,而如果開關切換,現(xiàn)場的柴油發(fā)電機有可能如果接入短路電流,就會發(fā)生短路事故,因此開關柜將發(fā)電機的開關鎖定以避免事故發(fā)生。
在大多數(shù)情況下這種事故將發(fā)生在建筑物之外,因此這個方案除了造成數(shù)據(jù)中心中斷之外,不會對其他設施造成損失。Hamilton表示,數(shù)據(jù)中心內(nèi)部短路,斷路器斷開,服務器切換到備用電源,或者如果配電系統(tǒng)中的故障較高或斷路器未能打開,發(fā)電機未鎖定時可能會損壞發(fā)電機。而這種情況極少發(fā)生。
“我寧愿承擔發(fā)電機的損壞風險,也不能讓IT負荷中斷?!彼f,“如果客戶因此可能會損失上億美元,那么保護柴油發(fā)電機就不會成為優(yōu)先事項?!?/span>
由于了解到潛在的設備故障,當亞馬遜公司工程師要求他們的開關柜制造商從其固件中消除鎖定設置時,開關柜供應商拒絕實行,因此亞馬遜公司決定使用自己推出的固件。
Hamilton表示,“我很幸運能夠為這么大規(guī)模的運營商工作,實施定制可以避免中斷事件發(fā)生,即使發(fā)生發(fā)電機損壞這樣罕見的故障,也仍然具有極好的經(jīng)濟意義。因此我們幾年前就采用了這種特定的故障解決模式?!?/span>

