大家下午好,我是來自靈犀的技術(shù)總監(jiān)朱穎航。當前這么一個現(xiàn)狀,我們的一套實踐和解決方案,這個方案不一定是最優(yōu)的方案。
我們當前硬件的監(jiān)控通常會怎么做,大家通常會采用帶內(nèi)IPMI的方式,廠商會有接口,會定義各種各樣的傳感器?;诓杉降臄?shù)據(jù),后面會有一整套的服務(wù),會避免和別的廠商有通用的接口。適配性的工作通常都是,如果你的廠商之前標準化品控做得好一點,那有可能你的工作量還好,如果品控差一點,有可能出現(xiàn)即使統(tǒng)一批服務(wù)器、同一個型號,可能它會有一些名稱也會不一樣,帶來額外的適配性的工作。純帶內(nèi)的Agent,采集的數(shù)據(jù)比較多,確定可以抓取109項除了IPMI,通過SMBIOS、CPU原生接口、硬盤/Raid原生接口和sysfs抓取,這些數(shù)據(jù)是目前帶外的方式實現(xiàn)不了的。帶內(nèi)做帶來另外一個問題,有一定的安全風險,而且成本比較高,前期投入研發(fā)的人力和投入的精力比較多,而且相當于隨著服務(wù)器的更新?lián)Q代,類型變化你也要去增加適配的工作。這又是一個帶內(nèi)Agent的技術(shù)門檻,一旦邁過這個技術(shù)門檻,帶來的好處會大于它自己帶來的危險。

我們定義新時代的監(jiān)控系統(tǒng)有四大特性,第一在統(tǒng)一,相當于多個廠商,因為你是直接從硬件層面拿到數(shù)據(jù),它就和你的廠商沒什么關(guān)系。第二是完整,拿到數(shù)據(jù)是原生的硬件必須要提供的接口,第三個是后服務(wù),包括故障的閉環(huán)和處理的能力。智能,對拓撲各方面成本和數(shù)據(jù)進行優(yōu)化。這上面的數(shù)據(jù)是指通過剛才的方式之后,在白皮書的實踐里得到???????體數(shù)據(jù)的數(shù)量,在資產(chǎn)、性能、故障、配置,這四個數(shù)據(jù)其實都有自己的意義。第二是性能數(shù)據(jù),對你的容量預測有比較大的幫助,這兒的故障數(shù)據(jù)和之前傳統(tǒng)意義上理解的帶外的方式故障數(shù)據(jù)有一定的差別,既然你可以帶內(nèi)可以實現(xiàn)一個Agent,你就在Agent完全可以做得更加智能和通用,可以把一些硬件相關(guān)的比較細的邏輯去優(yōu)化Agent內(nèi)部,然后對外突出的是更有價值的點,??據(jù)??析??來的結(jié)果,可以放到后服務(wù),把數(shù)據(jù)傳出去,這個邏輯基本不變,完全可以把它固化到Agent里面,讓它做一個更智能更加有價值的Agent。配置數(shù)據(jù),很多時候不是硬件故障,有一些額外的配置,這些配置怎么拿到,這些數(shù)據(jù)都會提供給業(yè)務(wù),業(yè)務(wù)方就會結(jié)合這個數(shù)據(jù)的類型去定義一個監(jiān)控基線,基于這個基線,最開始有一些簡單的case,時間長了可以基于這些全方位的數(shù)據(jù)???做一???規(guī)則???者判斷分析。解決問題的后服務(wù)能力,從選型到需求、預算、采購、到貨、交付,這里業(yè)務(wù)OP叫業(yè)務(wù)運維。整體來說都是從發(fā)現(xiàn)問題到解決問題的思路,我們是立足于數(shù)據(jù)角度出發(fā),無論從業(yè)務(wù)還是從我們自身去扣不同的點,找到優(yōu)化的內(nèi)容,全局的無論是大是小,聯(lián)動做優(yōu)化。
我們目前大部分還是處在第一階段,人工階段,下一個階段是有專家經(jīng)驗之后的自動化階段,第三個階段要進入智能化階段,第三階段能在策略層面得到非常豐富的拓展和擴充。
我們有一個DEMO展示的過程。
DEMO展示界面會把詳細的參數(shù)、指標和異常點展示出來,大家可以關(guān)注的是左邊這列,相當于是從剛才提到的這些點里去梳理出來的細節(jié)的數(shù)據(jù)產(chǎn)品,這些數(shù)據(jù)產(chǎn)品是大家最核心關(guān)注的點,這些東西是可以演進的,按照剛才騰訊他分享的,我們可以用各種大數(shù)據(jù)的思路、大數(shù)據(jù)的協(xié)議,用流式計算還有基線處理的方式,這個是在后面支撐這個的方式,核心的出發(fā)點是我們究竟要做什么,這個東西體現(xiàn)出來的就是左邊的東西。你去給用戶報障的時候,你得分析出來到底什么問題,結(jié)合之前或者是結(jié)合故障本身的錯誤帶來的影響,能把這個問題及時給用戶報出來,這個是作為一個真正有價值的硬件監(jiān)控應(yīng)該體現(xiàn)的東西。
我們可以分析這些機器的能耗,這些能耗更理想的情況是CMDB聯(lián)動去做展示和分析的。故障預測,基于我采集到的大規(guī)模的硬件數(shù)據(jù),到底多長時間能給用戶一個提前的反饋,當然這個故障預測完全可以和業(yè)務(wù)系統(tǒng)聯(lián)動起來。告警中心這個比較簡單,這是一個比較清楚的,所有的這個東西,整個系統(tǒng)來說是一個偏靜態(tài)的東西,唯一通過把整個系統(tǒng)串起來的,無論是性能的報警還是系統(tǒng)的報警,都是通過這個東西把整個系統(tǒng)串起來,這是事件管理的中心。
整體上就這些,謝謝大家。

