今天去聽了個講座,關于大數(shù)據(jù)和云計算,有一點收獲,有一點想法,有些思路怕時間久了就忘記,特此寫下來。主要是關于大數(shù)據(jù)的認識。
一、大數(shù)據(jù)的概念
講座上,老師講的大數(shù)據(jù)概念,幾乎和百度百科上的一樣:大數(shù)據(jù)(big data),是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。然而這樣的“大數(shù)據(jù)”對我們又有什么價值呢?我覺得,我們所提到的大數(shù)據(jù),必須是以能從中挖掘出一定價值的,能指導我們現(xiàn)實生活作為前提條件的。
我理解的大數(shù)據(jù)有兩個層面:
1、廣義的大數(shù)據(jù)概念。
廣義的大數(shù)據(jù),就是“人類通過信息化手段將現(xiàn)實世界記錄為數(shù)據(jù)的集合”?;蛘哒f,其本質(zhì)是在人類世界目前的所有信息化系統(tǒng)下,產(chǎn)生的數(shù)據(jù)集合,這些數(shù)據(jù)匯集成一個映射現(xiàn)實世界的虛擬信息世界。這個虛擬信息世界的所有數(shù)據(jù),即廣義大數(shù)據(jù),也就是說,廣義的大數(shù)據(jù)有且只有一個。
2、狹義的大數(shù)據(jù)概念
狹義的大數(shù)據(jù)概念,是指圍繞某一對象,以及某一時間范圍進行考察,該對象在該段時間內(nèi)通過各種信息化途徑產(chǎn)生的數(shù)據(jù)的集合,稱之為“大數(shù)據(jù)”。這里引入“對象”的概念,是建立在我前面提出的“大數(shù)據(jù)必須是有價值的”這一基礎上的,要讓大數(shù)據(jù)產(chǎn)生價值,就要有目的性的去挖掘、分析、統(tǒng)計,并為某些對象提供服務,就好像肉對狗有價值,草對羊有價值,考察對象至關重要。
二、三個世界
為了進一步闡述我的大數(shù)據(jù)觀點,這里我提出“三個世界”的觀點,所謂三個世界,是指“客觀世界”、“記錄世界”、“認知世界”
1、客觀世界
“客觀世界”指的是唯物主義理論中的世界,它不以人類的認知為界限,不為人類的意識所改變。是一個客觀現(xiàn)實,不管人類是否探索到,或者是否了解,是否理解。
2、記錄世界
“記錄世界”可以說是數(shù)字化的“客觀世界”,是人類在生產(chǎn)、生活過程中對“客觀世界”的發(fā)現(xiàn)和有意或者無意的信息記錄。一定程度上是對“客觀世界”的信息化映射。
3、認知世界
“認知世界”是指人類對客觀世界的認知,從而產(chǎn)生了一個在人類文明中的“世界”,這個世界里包含了人類各個歷史階段各個層次的文明,從地心說到日心說,牛頓定律到相對論等等,也是指人類科學和社會意識形態(tài)中所理解的“世界”。“認知世界”是人類試圖去探索“客觀世界”,去理解“客觀世界”的成果。通常“認知世界”是一部分人類專注于對“記錄世界”的分析研究和歸納總結后產(chǎn)生的。
為了更好的說明這三個世界,我舉一個例子。
描述1:孫波生活在地球上,地球上經(jīng)常有火山噴發(fā)。
描述2:孫波每次打噴嚏都會寫進日記。地球上每次火山噴發(fā)也都有人類記錄。
描述3:若干年后,通過這些記錄,人們有一個驚人的發(fā)現(xiàn):孫波每打100個噴嚏,就正好會有一座火山噴發(fā),于是科學家推導出這個理論:每當孫波打噴嚏的次數(shù)能被100整除,就會發(fā)生火山噴發(fā)。從此,每當孫波打90個噴嚏的時候,火山周圍的村民就會搬遷或者躲到地下。
上面三個描述,描述1就是客觀世界,描述2就是記錄世界,描述3就是認知世界。雖然例子舉得荒誕,但是人類文明就是在這樣三個世界中輪轉進步的,比如太陽歷和月亮歷的建立,看云、看日暈、看月暈識天氣,等等那些古老的常識,就是通過對客觀世界的觀察記錄,然后再在記錄中分析總結,得出結論,人類對這些推導和理論,在一開始往往是知其然而不知其所以然的,新的研究會解答之前的疑問,卻會帶來新的問題。
事實上,人類科學文明就好比在剝一個由客觀現(xiàn)實做成的洋蔥,每剝開一層就是科學文明有一次進步,這個洋蔥會越剝越小,但是永遠剝不到核心,可以一直剝下去。
這個就像兒子問我的問題:“為什們蜻蜓低飛就是要下雨了?”,“因為下雨前氣壓低濕度大,飛蟲翅膀濕了飛不高”;“為什么翅膀濕了就飛不高?”,“因為小水珠比較重!”;“為什么小水珠重?”,“因為水的密度比空氣大!”;“為什么水的密度大就重?”,“因為萬有引力,質(zhì)量越大,引力越大!”,“什么是萬有引力?”“……”。 其實,當年勞動人民看到低飛的蜻蜓就知道要下雨,根本不知道后面這么多為什么。而萬有引力也不是問題的終點,至少目前的相對論指出:萬有引力的根本是質(zhì)量對時空的扭曲。而即便是大名鼎鼎的“相對論”,我兒子也能大膽的問上更多個“為什么?”
三、記錄世界的重要性
很多時候,人類對客觀世界進行了記錄,然后要在很久之后才能發(fā)現(xiàn)其中的規(guī)律,產(chǎn)生新的認知理論。因此,記錄世界是人類主觀意識下,對客觀世界的映射,而其中蘊藏的秘密,或許等待著我們?nèi)グl(fā)現(xiàn)。
如實、客觀、標準化的記錄,并且該記錄可以長期保存,準確還原,這樣的記錄具有最大的價值。
四、“大數(shù)據(jù)”時代為什么現(xiàn)在到來
先讓我們回到“大數(shù)據(jù)”的官方定義,以及它的特性,我們看到,大數(shù)據(jù)有以下幾個特性:
容量(Volume):數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價值的和潛在的信息;
種類(Variety):數(shù)據(jù)類型的多樣性;
速度(Velocity):指獲得數(shù)據(jù)的速度;
可變性(Variability):妨礙了處理和有效地管理數(shù)據(jù)的過程。
真實性(Veracity):數(shù)據(jù)的質(zhì)量;
復雜性(Complexity):數(shù)據(jù)量巨大,來源多渠道;
大數(shù)據(jù)為什么現(xiàn)在到來?因為現(xiàn)在的人類技術讓“大數(shù)據(jù)”有了存在的可能。
記得1997年的時候,我在大學念書,好友汪明寫信告訴我,他買了一個4.3G的大腳硬盤,哇!4.3G啊,讓我激動不已,那時候還是用10多張1.44M軟盤裝win95的年代,一張600M光盤里有200多個游戲,就像寶貝一樣,我這個計算機專業(yè)的人家里,硬盤是540M的,還分了C:D:E:F:4個區(qū),現(xiàn)在人家居然買了4.3G的硬盤。
別的方面,我就不再講一遍計算機的發(fā)展史了,知名的摩爾定律說明了一切。
據(jù)我所知,目前的大數(shù)據(jù)相關概念,其實很早以前就有了,當年我學過一門課程叫做“數(shù)據(jù)挖掘”。在某些時候,其研究的對象,就類似與目前的“大數(shù)據(jù)”,只是很多時候,供分析研究的數(shù)據(jù)僅限于專業(yè)領域,其復雜性,多樣性和實時性不足,這一方面和“大數(shù)據(jù)”理論有偏差。
而互聯(lián)網(wǎng)發(fā)展到大約2010年,智能手機把移動數(shù)據(jù)終端,GPS放到每個人的口袋里,這可以說是一個“大數(shù)據(jù)”理論的“奇點”。
回到那個我打噴嚏的故事中來,我每次打噴嚏都寫在日記中,所以可能有一本包著塑料紅書皮的《孫波日記》在我床頭的抽屜里。而每次火山噴發(fā),都有史料記載,然而,不同地方的火山噴發(fā)情況卻分別獨自記錄在各地的某些科學家的書本上,有羅馬文的,有英文的,有中文的……,這些記錄都是對現(xiàn)實世界的記錄,也共同組成了我理論中的“記錄世界”。然而,《孫波日記》放在我的抽屜里,各地的火山記錄也散布各處,這樣的情況下,就算一萬年,也不會有人發(fā)現(xiàn)“孫波每打100個噴嚏,就會有1個火山噴發(fā)”。
直到如今,信息化時代到來,各地的地質(zhì)學家和歷史學家把各自的火山噴發(fā)數(shù)據(jù)按照時間索引匯集成冊,纂書一本《地球火山歷史》然后發(fā)到互聯(lián)網(wǎng),同時,我把我的日記放到了QQ空間,再然后,孫波的一個學地理的網(wǎng)上好友無意間發(fā)現(xiàn)了這個驚人的規(guī)律:孫波每100個噴嚏就會讓一座火山噴發(fā)。
補充說明,這個“孫波打噴嚏引發(fā)火山”理論,如果時間和實踐證明這一理論可以指導現(xiàn)實,那么即便現(xiàn)在看似無厘頭,但是背后一定有一個還不為人所知的科學。同樣,如果之前的依據(jù)只是巧合,必然會在時間的考驗中被檢驗,被否定。這是人類文明的發(fā)展規(guī)律。
如果說無意識的數(shù)據(jù)整合后,發(fā)現(xiàn)了新的規(guī)律,叫做“驚人的發(fā)現(xiàn)”,那么有意識的去融合多樣化的、復雜的、巨大的數(shù)據(jù)去發(fā)現(xiàn)規(guī)律,得出總結,這就是“大數(shù)據(jù)應用”了。
五、數(shù)據(jù)融合是大數(shù)據(jù)的關鍵
信息化技術的日新月異,讓很多不可能變?yōu)榭赡?,催生了很多服務人類的專業(yè)應用,比如智能手機、汽車導航、網(wǎng)上購物、遠程醫(yī)療、或者細化到目前智能手機上的各個APP,這些應用無時無刻都在運作,在它們運作的時候,都附屬產(chǎn)生了數(shù)據(jù),這些數(shù)據(jù)基本是標準化的,及時的,真實的。
汽車行駛的坐標、人們購買的物品、你的血壓心律、等等都被保存在每個不同應用的數(shù)據(jù)庫中。也就說,目前爆炸式增長的信息系統(tǒng)正在以前所未有的規(guī)模和各式各樣的方式即時記錄著我們的客觀世界。如今是“記錄世界”大爆炸的年代,“記錄世界”就是廣義概念的“大數(shù)據(jù)世界”。
各個應用雖然也能通過各自為政的數(shù)據(jù)信息中分析統(tǒng)計和數(shù)據(jù)挖掘,但是價值有限,于是,“大數(shù)據(jù)”被提了出來。從廣義上講“大數(shù)據(jù)”已經(jīng)放在那里了,就看怎么應用了。
“孫波打噴嚏引發(fā)火山”的理論,是以時間線為基礎,將火山噴發(fā)時間和孫波打100的整數(shù)倍噴嚏的時間作為融合點,研究分析得出的理論,試想,如果在《孫波日記》中忘記寫日期,那么這個理論也就無從考證了。
所以,在大數(shù)據(jù)應用實踐中,也就是狹義的“大數(shù)據(jù)”理論中,有一個考察對象的概念,該考察對象的某些屬性,應該是融合數(shù)據(jù)的核心基礎。舉例來說,如果結合手機定位和淘寶購物兩個不同系統(tǒng)的數(shù)據(jù)分析不同地區(qū)的人的購物習慣,那么考察對象就是人,而這兩個系統(tǒng)必須有一個融合點,就比方說是身份證號,或者手機號,通過融合點,可以把兩塊本來不相關的數(shù)據(jù)融合起來,才能形成有價值的大數(shù)據(jù),從而分析出,比如:上海人喜歡買鮮肉月餅,北京人喜歡買甜月餅。這個融合點類似于關系數(shù)據(jù)庫的主鍵和外鍵一樣,可以把兩個數(shù)據(jù)表聯(lián)合起來。
六、總結陳詞
要總結的是怎么做“大數(shù)據(jù)應用”,為什么要加上“應用”,因為大數(shù)據(jù)本身已經(jīng)存在了,且本身也不會自動產(chǎn)生價值,只有人們有意識的去融合數(shù)據(jù)、挖掘信息、并總結歸納,然后再用于新的領域起到指導作用,才會產(chǎn)生價值,這就是“大數(shù)據(jù)應用”。
要讓大數(shù)據(jù)價值最大化我認為要做到以下幾點
1、信息化系統(tǒng)數(shù)據(jù)規(guī)范的統(tǒng)一
雖然在“大數(shù)據(jù)”名詞解釋中稱大數(shù)據(jù)是“無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理”,但是讓“記錄世界”的各項記錄標準化,是更加有利于大數(shù)據(jù)融合的,前面說的,對什么地方的人的購物習慣的大數(shù)據(jù)分析就是基于身份證號碼和手機號碼的標準化。
2、客觀記錄盡可能多和真實的數(shù)據(jù)
比如淘寶系統(tǒng),或者陽光太倉人才網(wǎng)。在開發(fā)設計系統(tǒng)時,用戶什么時候下單,求職者什么時候應聘,數(shù)據(jù)記錄中可以精確到日,也能精確到秒,可以保留ip地址信息,也能不保留。但是,如今的信息技術,讓記錄更加精確的數(shù)據(jù)的代價變得很小,有些數(shù)據(jù),雖然以目前的眼光或者以割裂的方式來看價值不大,但是還是應該盡可能去記錄,也就是說,在代價不大的情況下“記錄世界”越詳細越好,越有利于大數(shù)據(jù)的應用。
3、盡可能的融合更多的數(shù)據(jù)
將地理位置和購物記錄融合起來,能分析出不同地區(qū)的人的購物癖好,那么融合再融合入職位和收入信息呢?是不是可以又可以推導出不同月薪層次的人的旅游愛好和購物價值觀?
4、大數(shù)據(jù)挖掘的信息要發(fā)揮指導作用
孫波打噴嚏滿100,就會火山噴發(fā),這個理論在每次孫波打90個噴嚏就疏散居民的時候發(fā)揮了指導作用,產(chǎn)生了價值。同樣,分析出上海人喜歡買鮮肉月餅,就能對籌建月餅廠,優(yōu)化豬肉物流配送等方面產(chǎn)生指導作用。只有發(fā)揮指導作用的大數(shù)據(jù)才是有價值的,才是我說的大數(shù)據(jù)。