當前,物聯(lián)網(wǎng)(IoT)、人工智能(AI)和機器學習正在走向一個不可阻擋的旅程,它們正在改變?nèi)藗兩畹拿恳粋€方面,但是只有通過數(shù)據(jù)中心收集和處理所有信息,人們將會繼續(xù)從中受益。
充分利用大數(shù)據(jù)和 AI 技術,構建智能化運維管控模型,自動識別業(yè)務問題,簡化運維操作復雜度,持續(xù)改善數(shù)據(jù)中心運行管理狀況,成為今后數(shù)據(jù)中心管理的重要課題。如何利用這些新技術在數(shù)據(jù)中心管理中精準智能告警、智能異常檢測、智能趨勢預測是大家關注的趨勢。
這樣的新聞報道你可能看過:
上海銀行數(shù)據(jù)中心迎來智能機器“巡檢員”
數(shù)據(jù)中心將采用機器人監(jiān)控機柜中的熱點
京東金融發(fā)布京東智能巡檢機器人
沉浸式混合現(xiàn)實(MR,即Mix Reality)運維通信系統(tǒng)正式投入生產(chǎn)環(huán)境運行
……
機器人時代要來了嗎?數(shù)據(jù)中心運維管理中是否可以實現(xiàn)以更少的人員投入,同時保障更高效的運營管理水平? 如何控制風險?“人與機器”是對立,還是合作?機器人和人類是否可以合作管理基礎設施?
6月25日,第十屆DCD中國數(shù)據(jù)中心國際峰會上海站在上海中心大廈舉行,在這個專題討論中,主辦方邀請到了騰訊數(shù)據(jù)中心研發(fā)總監(jiān)岳上、業(yè)內(nèi)專家肖建一、阿里巴巴基礎設施一體化架構師汪剛博士、萬國數(shù)據(jù)高級副總裁梁艷作為專家小組就以上話題進行了討論。
專家小組專場討論
數(shù)據(jù)中心智能化是一個趨勢,很明顯,這些技術促使了數(shù)據(jù)中心智能運維管理不斷的演進。肖建一指出,數(shù)據(jù)中心運維管理的演進可分為三個階段。階段一,需要大量的運維人員,運維質(zhì)量完全依賴個人經(jīng)驗能力及穩(wěn)定性;階段二,建立了驅(qū)動人工的機制及系統(tǒng)工具,依靠標準和流程將經(jīng)驗知識固化,并定量分析人力資源分配;階段三,開始建設自動化智能運維,將重復???????運維事務轉由自動化系統(tǒng)負責,分析性事務轉由AI介入?yún)f(xié)助,一定程度上大幅度降低了人力資源投入。
專家小組一致認為,數(shù)據(jù)中心智能運維自動化、智能化成功的基礎是數(shù)據(jù)化,但數(shù)據(jù)要合理、有效、準確、可靠、安全,這些是前提。機器人起到作用時,則需要人工大量建模。
很多數(shù)據(jù)中心智能運維管理的應用場景是以事件為核心的全閉環(huán)運維問題處理模型。我們要思考的是:數(shù)據(jù)如何采集?效率如何?準確性如何?數(shù)據(jù)可以幫助實現(xiàn)什么目標?數(shù)據(jù)的價值在哪里?AI是一種手段,怎么用?AI解決的是什么問題?人機結合的目標是什么?
騰訊數(shù)據(jù)中心研發(fā)總監(jiān)岳上表示,騰訊研發(fā)了一個數(shù)據(jù)中心管理軟件平臺——騰訊智維,它管理了騰訊內(nèi)部約80個數(shù)據(jù)中心,超過百萬臺服務器設備。
在采集效率上,騰訊已經(jīng)在研發(fā)新的數(shù)據(jù)和視頻采集協(xié)議。通過新協(xié)議,可以打造更高效的監(jiān)控網(wǎng)絡,既更細致的了解數(shù)據(jù)中心現(xiàn)場運行情況,同時做到更低的網(wǎng)絡負載。
在保證數(shù)據(jù)的準確性上,針對這些數(shù)據(jù),騰訊從五方面入手:
① 測點側,監(jiān)控MDC測點接入率;
② 網(wǎng)絡側,通過技術手段,一旦網(wǎng)絡出現(xiàn)問題,我們可以自動識別問題并判斷根本原因,進而自動切換或者人工干預;
③ 視頻側,實時檢查視頻參數(shù)、視頻格式和碼率,發(fā)現(xiàn)問題及時告警;
④ 服務器側,一旦服務器進風溫度異常,及時告警;
⑤ 異常數(shù)值,對數(shù)值做了合理區(qū)間設定,系統(tǒng)算出異常值會預警開發(fā)者。
數(shù)據(jù)可靠性的提高,確實給現(xiàn)場運營帶來許多新的改變,如CMDB自動發(fā)現(xiàn)設備——騰訊數(shù)據(jù)中心的所有設備上面都帶有測點,可以通過測點的上報,來感知整個網(wǎng)絡里的設備運行情況,從而發(fā)現(xiàn)新增/刪除或者維修的設備,通過人簡單核對就可以入庫。如數(shù)據(jù)中心運營水平量化考核——從大量數(shù)據(jù)中,歸納計算出反應現(xiàn)場運營效率的數(shù)十個一級指標,上百個二三級指標,作為對現(xiàn)場進行???????核的KPI指標,指導運維團隊提升現(xiàn)場運營效率。
騰訊智維是騰訊近20年數(shù)據(jù)中心運營經(jīng)驗與云化技術相結合成果,利用騰訊數(shù)據(jù)中心先進的管理運維經(jīng)驗,騰訊強大的技術研發(fā)實力,安全保障能力,幫助客戶持續(xù)提升數(shù)據(jù)中心運營的質(zhì)量與效率,降低成本投入,將數(shù)據(jù)中心的價值極大化。
騰訊數(shù)據(jù)中心研發(fā)總監(jiān)岳上
筆者也看到,這一年來,智維也在多方面進行著進化,包括有很多AI方面的探索。
岳上表示,未來數(shù)據(jù)中心會向無人值守進化,人機協(xié)同是一個過程,機器人做一些基礎重復的工作會比人做的好,但AI不光是機器人,它更需要一個大腦。
比如騰訊覓蹤,就是借助AI技術,結合騰訊內(nèi)部數(shù)十年的數(shù)據(jù)中心運營經(jīng)驗,通過自研的高性能視頻分發(fā)服務、智能跟蹤服務、針對數(shù)據(jù)中心場景特別優(yōu)化的H5圖形渲染引擎等三大核心技術,依托云的池化、彈性等特性,在較低的成本下,實現(xiàn)了數(shù)據(jù)中心人員身份的精準鑒別,包括關鍵區(qū)域人員入侵檢測、異常行為識別、人員隨工監(jiān)測等功能,并能夠?qū)梢扇藛T的活動軌跡實時跟蹤定????、追溯和告警,從而滿足園區(qū)人員全方位監(jiān)控的細化需求。
騰訊覓蹤就像是個能力強大、高度負責的機器安檢員,7×24小時不眠不休的盯著園區(qū)上千個攝像頭的實時畫面,一旦發(fā)現(xiàn)異常便會立即告警。這個機器安檢員還可以通過多個攝像頭,實時追蹤定位可疑人員,把對物的監(jiān)控進一步擴展到對人的管控。
據(jù)悉,騰訊覓蹤不僅可以應用在數(shù)據(jù)中心,還可以為很多大型功能園區(qū),如工廠、醫(yī)院、校園等提供視頻安防解決方案。目前,它依托于騰訊智維平臺,為客戶提供服務。未來,騰訊覓蹤也將作為獨立產(chǎn)品向行業(yè)推出。