作為研究大數(shù)據(jù)的資深專家,中關村大數(shù)據(jù)產業(yè)聯(lián)盟秘書長、中國計算機學會大數(shù)據(jù)專委會委員趙國棟在大數(shù)據(jù)領域著述頗豐,他的著作《大數(shù)據(jù)時代的歷史機遇》在行業(yè)內廣為流傳。
關于大數(shù)據(jù)的定義很多,足以讓人找不到北,亞馬遜的科學家給出的定義是非常言簡意賅的一種,“大數(shù)據(jù)是任何超過了一臺計算機處理能力的數(shù)據(jù)量”。
在趙國棟看來,大數(shù)據(jù)最大的優(yōu)勢在于減輕人們對于未來的焦慮感。他用帶有幾分哲理意味的語言這樣描述道,“未來的不確定性是人類產生恐懼的根源之一,也是各類組織最為頭痛的問題。大數(shù)據(jù)技術讓我們看到解決未來預測問題的一絲曙光”。
“任何行為,皆有前兆。但在現(xiàn)實世界中,缺少實時記錄的工具,許多行為看起來是‘人似秋鴻有來信,事如春夢了無痕’。在互聯(lián)網世界則完全不同,是‘處處行跡處處痕’。要買商品,必先瀏覽、對比、詢價;要搞活動,必先征集、討論、策劃?;ヂ?lián)網的‘請求’加‘響應’機制恰恰在服務器上保留了人們大量的前兆性的行為數(shù)據(jù),把這些數(shù)據(jù)搜集起來,進一步分析挖掘,就可以發(fā)現(xiàn)????藏在大量細節(jié)背后的規(guī)律,依據(jù)規(guī)律,預測未來。收集分析海量的各種類型的數(shù)據(jù),并快速獲取影響未來的信息的能力,就是大數(shù)據(jù)技術的力量所在?!壁w國棟說。
為了說明上述觀點,趙國棟引用了一則IBM公司的廣告語,“過去我認為我的工作就是追捕罪犯,而現(xiàn)在對這項工作有了全新的認識,我們分析犯罪數(shù)據(jù),識別犯罪模式,并部署警力,幫助美國部分城市重大犯罪率降低了30%。終結犯罪,在案發(fā)之前”。
站在歷史的角度來看,人類所擁有的數(shù)據(jù)正在呈現(xiàn)爆發(fā)式增長態(tài)勢:
根據(jù)國際數(shù)據(jù)公司(IDC)的《數(shù)據(jù)宇宙》報告顯示:2008年全球數(shù)據(jù)量為0.5ZB,2010年為1.2ZB,人類正式進入ZB時代。更為驚人的是,2020年以前全球數(shù)據(jù)量仍將保持每年40%多的高速增長,大約每兩年就翻一倍。
ZB是個什么概念?1ZB=1024EB。一本《紅樓夢》共有87萬字(含標點),每個漢字占兩個字節(jié),即1 個漢字=2B,由此計算1EB約等于6626億部《紅樓夢》。美國國會圖書館是美國四個官方圖書館之一,也是全球最重要的圖書館之一,截至2011年4月,藏書約為1.5億冊,收錄數(shù)據(jù)235TB,1EB約等于4462個美國國會圖書館的數(shù)據(jù)存儲量。
擁有數(shù)據(jù)越多,并不意味著萬事大吉。大數(shù)據(jù)時代依然可能面臨發(fā)展不均衡和不公平的問題。趙國棟將其概括為數(shù)據(jù)割據(jù)、數(shù)據(jù)孤島和數(shù)據(jù)質量三大問題。
“因為制度漏洞、地方保護主義、部門利益等人為因素造成數(shù)據(jù)分散的現(xiàn)象,可以稱之為數(shù)據(jù)割據(jù)。政府部門之間各自將數(shù)據(jù)看作自己的資產,而不是作為社會資源和公共資源來使用,這主要是由于部門之間存在壁壘和各自的利益,規(guī)章制度、法律法規(guī)不完善造成的。因為技術差距、歷史遺留問題等形成的數(shù)據(jù)分散現(xiàn)象,稱之為數(shù)據(jù)孤島。數(shù)據(jù)質量的好壞,直接影響數(shù)據(jù)資產的價值。數(shù)據(jù)質量主要包括數(shù)據(jù)的真實性、完整性、一致性。這些問題的解決非一日之功,需要技術、制度、文化等方方面面的努力?!壁w國棟說。
編輯:apple.lei