最近廣為流傳的一個詞是大數據。人人都在講大數據,專家講,老師講,身邊的同學也不乏談論的。大數據到底是什么?它真的有那么好嗎?它好在什么地方?它真的能引領我們來到一個新的時代——大數據時代嗎?懷著一探究竟的心情,我捧起了維克托·邁爾-舍恩伯格的《大數據時代》一書。
關于大數據,不同的書和不同的作者可能會有不太完全相同的定義。比如,有的學者認為:所涉及的資料量規模巨大,無法通過目前主流軟件工具在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊。而維克托認為大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模數據的基礎上是無法完成的。但他們關于大數據的內涵都是一致的。
讀《大數據時代》給我印象最深的就是大數據時代的思維變革,它要求我們作出三個重大的思維轉變:第一,不是隨機樣本,而是全體數據。在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,追求的是樣本等于總體,而不再依賴于隨機采樣。不可否認,隨機采樣曾給我們帶來莫大的幫助。因為在過去記錄、存儲和分析數據的工具不夠好,我們只能收集少量的數據進行分析,而隨機采樣方法能讓我們用最少的數據獲得最多的信息,既能減少人力、物力、財力的耗費,也能節約時間。但隨機采樣也有許多固有的缺陷,它的成功依賴于采樣的絕對隨機性,而絕對隨機性的實現非常困難,一旦采樣過程中存在任何偏見,分析結果可能就會相去甚遠;并且不適合考察子類別的情況。大數據得益于突飛猛進的數據收集、存儲、處理和分析技術,能夠避開采樣的缺陷對數據進行深度探討。谷歌就曾在流感蔓延的時代,通過分析整個美國幾十億條互聯網檢索記錄推測出某個城市特定的流感狀況。
第二,研究的數據量巨大,我們不再追求精確度,取而代之的是包容混雜性。這是一個信息爆炸的時代,各種各樣的數據浩如煙海、樣式繁多,只有少量數據是結構化的且能適用于傳統數據庫,而更多的數據是非結構化的,只有接受不精確性包容混雜,我們才能利用這更多的數據,才能打開通往大數據時代的窗戶。至此,我們也不再需要那么擔心某個數據點對整套分析的不利影響,也不再需要以高昂的代價消除所有的不確定性,只需接受它們并好好利用它們。還以谷歌公司為例,谷歌翻譯系統很強大、翻譯質量很高并且很靈活,就是因為它擁有一個更大更繁雜的數據庫,它曾把它所能找到的所有翻譯都放到了數據庫,作為一個翻譯的“訓練集”。
第三,我們不再熱衷于尋找因果關系,轉而更加關注相關關系。這是這本書里要求我們作出的一個一時半會兒難以習慣的思維轉變。在大數據時代,我們更多的是知道“是什么”就夠了,沒必要知道“為什么”,因為有些東西不好解釋也解釋不清,我們不必非得知道現象背后的原因,而是要讓數據自己“說話”。大數據的相關關系分析法更準確、更快速,而且不易受偏見的影響,更容易讓們得到事實上的結果,甚至會有點出乎我們自己的預料,因為我們的預料大多是建立在經驗和因果基礎上的。
談大數據,大數據要求我們分析的數據樣本等于總體,那這么多的數據從何而來?遠在信息數字化之前,我們就已經開始了收集數據和運用數據,數據的產生有兩個必要條件,那就是計量和記錄。只不過現在我們收集數據的方式更加多樣化了,收集數據的范圍更加廣泛了。僅僅是通過傳感器,各種壓力、振動、溫度、速度、方位等等都能成為數據?,F代的社會,我們已經不在像以前一樣受限于數據了,文字、圖像、聲音、視頻都能成為數據,坐標、高度、方向、速度都能成為數據,就連互聯網上的聊天記錄和搜索記錄也都能成為數據。這一切的一切只是等待著被分析、被挖掘、被利用。
那大數據是怎樣對我們社會和個人產生影響的呢?數據就像一座礦山,它的價值都埋在地下,需要我們去挖掘。通常情況下,一旦數據利用完了,我們就會將其刪除,而現在我們要保留它、積累它對其再利用,Farecast的機票價格走勢預測系統就是這樣產生的。我們也可以重組數據,通過把一些數據集和另外一些數據集結合起來,或許能夠創造新的價值,數據的總和比部分更有價值,就像我們相信團隊的作用一樣。我們還可以關注數據的可擴展性,以此形成再利用,比如商店里安裝的監控,不僅能認出商店扒手,還能跟蹤在商店里購物的客戶流和他們停留的位置,這樣有助于設計店面的最佳布局進而促進銷售。還有典型的“數據廢氣”,它是指用戶在線交互的副產品,包括瀏覽了哪些頁面、停留了多久、鼠標光標停留的位置以及輸入了什么信息等?,F在已經有許多公司改進系統,使自己能夠收集數據廢氣并循環利用,以改善現有的服務或開發新服務,最典型的莫過于現在流行的網上推送服務了。……,數據的利用方式還有很多。
金無足赤,人無完人,大數據勢必也會存在自己的不足。首當其沖的就是我們的隱私問題,比如說“數據廢氣”使數據發揮了新的價值,能夠針對我們的瀏覽記錄推送個性化服務,但我們時刻都暴露在“第三只眼”之下——我們的購物習慣、網頁瀏覽習慣、社會關系網被它們監視了,一旦泄露了怎么辦。還有,大數據是不是過于依賴數據了,如果數據遠遠沒有我們想像中的那么可靠怎么辦。等等這些問題都有待于進一步解決。
通讀《大數據時代》,神秘的大數據已不再那么神秘,心中的疑惑也一一散去,想著書中的種種案例以及身邊發生的種種應用,似乎大數據時代已經來臨。不可否認的是大數據還有進一步完善和發展的地方,但更為重要的是,大數據向我們宣揚了一些新的分析數據、利用數據的思維方式,大數據正在變革著我們的生活、工作與思維,并且讓我們獲得了小數據時代不曾或無法獲得的信息。
參考書籍:《大數據時代》 維克托·邁爾-舍恩伯格 著

