什么是大數據?
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。
大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。數據內容涉及網絡日志、視頻、圖片、地理位置等等各類網絡信息。第三,價值密度低,商業價值高。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。

大數據開啟企業商業行為新模式
大數據時代來臨首先由數據豐富度決定的。社交網絡興起,大量的UGC(互聯網術語,全稱為User Generated Content,即用戶生成內容的意思)內容、音頻、文本信息、視頻、圖片等非結構化數據出現了。另外,物聯網的數據量更大,加上移動互聯網能更準確、更快地收集用戶信息,比如位置、生活信息等數據。從數據量來說,已進入大數據時代。
以往大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,而提及“大數據”,通常是指解決問題的一種方法,即通過收集、整理生活中方方面面的數據,并對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業模式。
例如淘寶現有一種運費保險,即淘寶買家退貨時產生的退貨運費原本由買家承擔,如果買家購買了運費保險,退貨運費由保險公司來承擔。這種購買的結果是保險公司經營虧損很嚴重,直接導致它們不愿意再發展和擴大運費保險。運費保險真的必然虧損嗎?答案是No。
如果以信息數據抓取為基礎為運費險做一套大數據智慧應用解決方案,就能很好的解決問題。因為退貨發生的概率,跟買家的習慣、賣家的習慣、商品的品種、商品的價值、淘寶的促銷活動等都有關系,所以,使用以上種種數據,利用數據挖掘獲取此類信息,建立退貨發生的概率模型,植入系統就可以在每一筆交易發生的時候,給出不同的保險費率,使保險費的收取,與退貨發生的概率相匹配,這樣運費險就不會虧損了。
信息數據采集決定大數據應用基礎信源
從大數據的概念我們可以知道,大數據的數據源主要為網絡日志、視頻、圖片、地理位置等等各類網絡信息,而這些數據的匯集是實現大數據實施的基礎,所以大數據應用建設離不開網絡信息數據采集這一核心環節。
不管是政府還是企業,瀏覽器里的搜索、點擊、網上購物、其他數據(比如氣溫、海水鹽度、地震波)、新聞信息、網友留言、網友個人信息、產品信息、人事信息等等都是大數據應用的重要目標,這些信息數據是政府企業戰略決策的重要依據。
信息數據采集需要考慮其采集量、采集速度和采集面的效果。現在常用的軟件如樂思信息采集系統是功能比較全面的。系統支持的采集面涉及微博、論壇、博客、新聞網、電商網站、分類網站等各種網上可見頁面;而采集類型囊括文本、數據、URL、圖片、視頻、音頻等各種呈現類型;信息數據采集速度可以達到秒及以上。互聯網是大數據信息的主要來源,能夠采集什么樣的信息、采集到多少信息以及哪些類型的信息,著直接影響著大數據應用功能的最終發揮效果。
深圳樂思輿情監測:www.07zn.com轉載請注明,謝謝!