數(shù)據(jù)中心的自動監(jiān)控系統(tǒng)在市場上來說較新穎,起初這類產(chǎn)品包含各種功能,像是保存設(shè)備記錄以及控制設(shè)備的移動和維護(hù)。 直至今天,它功能不僅是綁定數(shù)據(jù)庫來繪制圖表傳達(dá)機(jī)房信息, 現(xiàn)代系統(tǒng)更能解決數(shù)據(jù)中心操作上的各種任務(wù)。在此篇文章,我們將了解業(yè)界中常出現(xiàn)的問題,并嘗試尋找解決問題的方法。
擴(kuò)展多樣性功能
數(shù)據(jù)中心的工程基礎(chǔ)設(shè)施可區(qū)分成兩個控制回路, 一個處理機(jī)柜的冷卻和電力分配,另一個處理整體設(shè)施的電力系統(tǒng)、空調(diào)系統(tǒng)及各種輔助子系統(tǒng)(滅火,門禁控制等),通常這兩種回路和它們的組件是彼此獨(dú)立且由不同部門的運(yùn)維人員操作。
企業(yè)通常不愿意為基礎(chǔ)設(shè)施管理購買整體解決方案,尤其商用數(shù)據(jù)中心。 而公司的管理階層常常想節(jié)省花費(fèi),同意選用零散的空調(diào)和UPS系統(tǒng)為規(guī)劃。然而,多個控制電路之間缺乏溝通橋梁,數(shù)據(jù)中心子系統(tǒng)的不同自動化水平以及多家不同的設(shè)備供貨商,使所有設(shè)施部分的協(xié)調(diào)工作復(fù)雜化,導(dǎo)致在整合上遇到許多困難。
控制模式
在最壞的情況下,小型的數(shù)據(jù)中心子系統(tǒng)是手動控制的,并且使用微軟Excel來記錄設(shè)備的安裝和移動,通常這文書記錄自然是一團(tuán)糟,因為使用電子表格保持正確的數(shù)據(jù)庫是一項非常有挑戰(zhàn)性的任務(wù),當(dāng)機(jī)柜數(shù)量以十為單位進(jìn)行測量時,這時會有手工核算的問題產(chǎn)生,而且此類的數(shù)據(jù)中心在發(fā)生故障時才會更換設(shè)備,但這會增加發(fā)生事故時的間接成本和停機(jī)時間???????
如果停機(jī)時間對數(shù)據(jù)中心非常關(guān)鍵,則應(yīng)使用反應(yīng)控制模式,這種模式可以監(jiān)控故障排除程序,且持續(xù)有文書紀(jì)錄。 但是,該流程需基于員工有足夠經(jīng)驗以及他們對數(shù)據(jù)中心的有一定的了解,在發(fā)生事故的情況下,可以很快消除問題。如果缺乏全面分析故障原因的機(jī)會,在預(yù)防方面存在嚴(yán)重困難,而當(dāng)只有幾位專家知道如何管理設(shè)施的所有過程的情況下,假如????名專家離去,就會衍生新的問題。
更先進(jìn)的管理模型始終以服務(wù)為導(dǎo)向,它負(fù)責(zé)設(shè)施所有子系統(tǒng)的完整文書工作,且明確規(guī)定了更換和預(yù)防性設(shè)備維護(hù)的規(guī)則及程序,并對其安裝的移動進(jìn)行了徹底的運(yùn)算,同時提供營運(yùn)報告關(guān)于工程系統(tǒng)參數(shù)、事故說明和人員事故的消除措施。
以服務(wù)為導(dǎo)向的數(shù)據(jù)中心管理方式主要特色是具主動性,該模型不僅可以分析錯誤的原因,還可以在問題發(fā)生之前進(jìn)行預(yù)測,建立快速恢復(fù)服務(wù)的解決方法。當(dāng)然,如果不為所有數(shù)據(jù)中心子系統(tǒng)導(dǎo)入單一的自動化監(jiān)視和調(diào)度系統(tǒng),這種方法是不可行的。根據(jù)經(jīng)驗顯示,因缺乏高技術(shù)的專家,往往錯誤都是屬于人為,但如果調(diào)度中心屬于是自動化的,且所有設(shè)施維護(hù)規(guī)則和規(guī)章都已制定,那大多數(shù)人員只需要基本知識即可。
監(jiān)控與調(diào)度
大約十年前,將所有工程子系統(tǒng)結(jié)合至單一平臺DCIM(數(shù)據(jù)中心基礎(chǔ)架構(gòu)管理)解決方案。DCIM的第一個版本可以草擬方案或計劃,并維護(hù)文書工作,但現(xiàn)在的功能已有很大變化,現(xiàn)代的解決方案可做到與不同制造商設(shè)備中的內(nèi)置監(jiān)視工具進(jìn)行相連,并連接其他傳感器、控制器、訊號轉(zhuǎn)換器和數(shù)據(jù)收集系統(tǒng),收集機(jī)柜至各級別的能耗,機(jī)柜、冷卻系統(tǒng)和內(nèi)部管道中???????溫度和濕度,以及液體泄漏數(shù)據(jù)的信息,此為達(dá)成預(yù)期目的的最低要求。
一旦安裝了DCIM,客戶可擁有一個整合的監(jiān)控環(huán)境系統(tǒng),處理包括所有關(guān)鍵子系統(tǒng)和IT設(shè)備的數(shù)據(jù),主要任務(wù)是結(jié)合其中最大可用數(shù)據(jù)的流量,及時收集和處理數(shù)據(jù),使機(jī)房人員可以全面了解數(shù)據(jù)中心所有子系統(tǒng)的功能狀態(tài),包括實時的運(yùn)算能力。這就是DCIM的另一個優(yōu)點(diǎn),可以減少人為因素對數(shù)據(jù)中心子系統(tǒng)性能的影響。
選擇上的難題
企業(yè)導(dǎo)入DCIM的時機(jī)可能不盡相同,但最好在設(shè)施的設(shè)計時間導(dǎo)入DCIM,此時還可選擇不同制造商的設(shè)備,整合成現(xiàn)有獨(dú)立子系統(tǒng),在數(shù)據(jù)中心設(shè)計時間選擇解決方案不會引起任何問題,這通常由系統(tǒng)集成商完成,該系統(tǒng)集成商會幫助選擇必要的硬件和軟件。
現(xiàn)有數(shù)據(jù)中心的情況比較復(fù)雜,現(xiàn)在需要召集一個工作小組,其中包括相關(guān)部門的代表,且需列出希望監(jiān)控的基礎(chǔ)設(shè)施的所有參數(shù)和節(jié)點(diǎn)的列表,并按重要性從高到低的順序排列,并且審核基礎(chǔ)設(shè)施設(shè)備支持的協(xié)議和通信方式,再考慮要安裝哪些感應(yīng)器和控制器。
利用這些信息,選擇了必買的軟件解決方案,再列出要擴(kuò)充的設(shè)備去估算整體項目預(yù)算,將DCIM的導(dǎo)入完全外包是一個好主意,錯誤產(chǎn)生在設(shè)計時間的花費(fèi)會比系統(tǒng)集成商的服務(wù)花費(fèi)更多。最初DCIM系統(tǒng)是要本地導(dǎo)入的,但是現(xiàn)在許多開發(fā)者將其作為SaaS(軟件即服務(wù))提供,這種方法可以大大減少支出。
優(yōu)化的立基點(diǎn)
數(shù)據(jù)中心運(yùn)營的主要支出是電力成本,IT設(shè)備和冷卻系統(tǒng)的運(yùn)作消耗了大量電費(fèi), 因此須先優(yōu)化能耗,能耗取決于許多的外部和內(nèi)部因素,例如,氣候和天氣條件(包括季節(jié)變化)會直接影響冷卻系統(tǒng),其中DCIM還可以分析電信設(shè)備以及其他子系統(tǒng)上負(fù)載增減時的試算。無法手動去計算所有的因素,但可以利用DCIM系統(tǒng)做到運(yùn)算和分析實際的累積出統(tǒng)計數(shù)據(jù),從而???????出基礎(chǔ)設(shè)施中的問題區(qū)域。
數(shù)據(jù)中心最關(guān)鍵的指標(biāo)之一是能源使用效率(PUE)系數(shù),該系數(shù)顯示IT負(fù)載、冷卻和UPS運(yùn)行花費(fèi)了多少功率,配電系統(tǒng)花費(fèi)多少能耗,PUE計算方式是將機(jī)房總用電量除以IT設(shè)備總用電量。起初,人們認(rèn)為1.6到2.0的PUE系數(shù)是可以接受的,但是現(xiàn)在市場上追求更高效的數(shù)據(jù)中心,大家持續(xù)努力將PUE保持在 1.1到1.2的值之間。通常,機(jī)房能耗是在UPS的輸出、配電單位的輸???????以及IT設(shè)備的實際使用情況下測量的。
根據(jù)獲得的數(shù)據(jù),可以準(zhǔn)確地得出數(shù)據(jù)中心的能源效率,雖然PUE不能反映某些數(shù)據(jù)的細(xì)微差別,例如,無法試算服務(wù)器的停機(jī)時間或確認(rèn)有問題的熱點(diǎn)來源,但PUE還是非常重要。還有,將PUE降低到接近1時,通常會導(dǎo)致數(shù)據(jù)中心的可靠性降低,事故和設(shè)備使用壽命的降低會抵消節(jié)能效果。
現(xiàn)代控制系統(tǒng)可以從服務(wù)器、機(jī)柜和配電設(shè)備收集能耗數(shù)據(jù),甚至可以監(jiān)視每個通訊點(diǎn),可以以易于理解的直觀形式顯示關(guān)鍵資源消耗的統(tǒng)計信息,從而更容易找到能耗最高的區(qū)域來優(yōu)化成本花費(fèi),還可以找出負(fù)載較低的時間段,以便在這些時間段內(nèi)安排維護(hù)。能耗高峰分析可將能源儲備保持在10%-15%的范圍內(nèi),來取代手動控制的情況下的30%-40%,讓這也成????一筆可觀的成本節(jié)省。
DCIM解決方案還可監(jiān)視其他工程子系統(tǒng),例如,DCIM可繪制氣流以識別空調(diào)和氣候控制系統(tǒng)的問題區(qū)域,這些區(qū)域的用電量在機(jī)房中僅次于IT設(shè)備用電量。在嚴(yán)重問題出現(xiàn)、預(yù)防并迅速消除其問題之前,不要忘記進(jìn)行故障排除,這可以提高基礎(chǔ)架構(gòu)的可靠性并降低成本。僅在小型服務(wù)器機(jī)房中才適合用手動控制,但在有數(shù)十個甚至數(shù)百個機(jī)柜的機(jī)房時,必須導(dǎo)入DCIM???????
產(chǎn)業(yè)的展望
到目前為止,我們僅討論了基礎(chǔ)架構(gòu)工程,因為IT基礎(chǔ)架構(gòu)管理被認(rèn)為是一項被區(qū)分開來的任務(wù),通常跟DCIM有不同的系統(tǒng)。對于商業(yè)型的數(shù)據(jù)中心,IT設(shè)備的工作屬于客戶責(zé)任范圍,但是,虛擬化融合/超融合基礎(chǔ)架構(gòu)的發(fā)展正在逐漸改變這種狀況。今時,開發(fā)者正在開發(fā)可實時監(jiān)控單一實體設(shè)備上的虛擬服務(wù)器解決方案,IT供貨商正在其產(chǎn)品中嵌入大量感應(yīng)器以???????控能耗和溫度。
虛擬化環(huán)境中的有效負(fù)載計劃必須涵蓋所有級別:操作系統(tǒng)和應(yīng)用程序、服務(wù)器,存儲系統(tǒng)、電信設(shè)備和通訊管道,當(dāng)然還包括物理資源,例如:電源,散熱,加濕系統(tǒng)等。DCIM解決方案不僅是大型數(shù)據(jù)中心的其中一環(huán),在不遠(yuǎn)的未來,DCIM、虛擬化平臺和IT基礎(chǔ)架構(gòu)管理系統(tǒng)將會緊密整合。