近日,了解到百度視頻在升級迭代上利用大數(shù)據(jù)做了很多事情,這讓我真實的感受到了大數(shù)據(jù)的價值。其中我將大數(shù)據(jù)的應用決策拆解成兩種層面,第一種是利用個體數(shù)據(jù)為個體進行決策,第二種是利用群體數(shù)據(jù)為群體進行決策。
以下,結合百度視頻已經實現(xiàn)以及將要實現(xiàn)的案例,來看下大數(shù)據(jù)與人工智能是具體如何應用的。
大數(shù)據(jù)個性化決策
個性化決策無疑是難度最高的,因為個性化決策是根據(jù)用戶行為記錄來為用戶做出相應的推薦。
百度在無線端有大量的產品,其中用戶數(shù)過億的 APP 就多達 14 款。百度內部有專門的團隊,分析用戶在這些 APP 中的行為,利用算法估算用戶的年齡、性別、職業(yè)、興趣等特征。
這一技術在百度工程師那里稱為用戶建模,這些數(shù)據(jù)來自于用戶手機里安裝的百度應用如“百度地圖”、“百度貼吧”、“百度魔圖”外加一些使用百度開放接口的應用諸如“糗事百科”等等,百度是能夠通過這些數(shù)據(jù)進而來為用戶建立動態(tài)模型。

百度視頻的個性化推送是典型的利用群體智慧來解決個體需求的例子。傳統(tǒng)的視頻 APP 通常以廣播的方式為用戶推送視頻,即每個用戶收到的消息內容是一樣的,無法滿足用戶個性化的需求。百度視頻的做法是,分析用戶的歷史觀看記錄,同時結合用戶的性別、年齡、地域等特征,為用戶建立興趣模型,將用戶可能感興趣但卻未觀看過的視頻推送給用戶。
比如一個經常上動漫貼吧的用戶,百度通過搜集大數(shù)據(jù)后判斷其是 20 歲左右的大學生,在個性化推送上就和其他人群就有所不同,可能就會推送一些大學生圈子里比較流行的動漫以及韓劇之類。
簡而言之,用戶使用的百度系以及帶有百度接口產品的產品越多,百度就能越能為用戶建立個人模型,所有使用過的產品的數(shù)據(jù)會匯聚到百度云端,人工智能最后再繪制出一個人的畫像,百度再根據(jù)這個畫像再為每個應用進行大數(shù)據(jù)決策推送,再根據(jù)用戶的反饋結果進行迭代試錯,當然這是機器學習的部分,不必要再深入討論下去。我畫了一個簡單的百度個性化推薦原理。

大數(shù)據(jù)群體化決策 個體與群體的價值思辨
之前我對百度個性化推送提出過缺陷的質疑,一旦當用戶更換手機之后,百度就無法再次為其建立個人畫像模型,進而也就失去了對于個人的意義,百度又要重新建立個人數(shù)據(jù),十分麻煩。
而深入了解百度的大數(shù)據(jù)之后讓我感到更有一番深度,百度的大數(shù)據(jù)并非只為個體用戶服務,更重要的是建立群體宏觀行為模型,通過這一整套模型為群體進行宏觀決策,而群體決策部分的重要戰(zhàn)略意義遠遠大于個體意義。
我對此的理解為:如果我們將人類整體行為看做為個體行為,那么同樣的作為個人總有一些誤操作,一些隨機的非主流的邊緣操作,而這些邊緣操作對于機器學習來說只是噪聲而非信號,是需要進行過濾的,那么機器就需要過濾掉這些沒有價值的數(shù)據(jù),將有價值的信號數(shù)據(jù)沉淀與固定下來,為整體行為進行決策。

