
這個時代學習能力是最重要的能力,而能夠在周末的時間進行學習的人就更有競爭力。同時選擇大數(shù)據(jù)這一方向來學習的人則是當今大數(shù)據(jù)時代最具有競爭力的人。
今天之所以選擇用大數(shù)據(jù)解讀爸爸去哪兒第二季這個話題是因為娛樂性的話題比較容易理解。大數(shù)據(jù)的概念起碼要包含數(shù)據(jù)、技術(shù)和應用三 個方面。因為有了越來越多的數(shù)據(jù)才有了大數(shù)據(jù)這一概念,才能夠運用數(shù)據(jù)能夠做很多的事情。這其中,最重要的就是互聯(lián)網(wǎng)的發(fā)展。因為數(shù)量非常大而且有很多非 結(jié)構(gòu)化數(shù)據(jù)(文本、視音頻等),這樣的數(shù)據(jù)就必須用智能化的分析方法才能解決,因此這方面的大數(shù)據(jù)技術(shù)也更加復雜。而所謂應用是大數(shù)據(jù)分析的目的和核心, 大數(shù)據(jù)分析都是從應用中導出來的,根據(jù)應用分析相應數(shù)據(jù)得出相應結(jié)論。
目前來看,大數(shù)據(jù)技術(shù)有很多像海量一樣的公司都在做,而怎樣把大數(shù)據(jù)應用到實際工作中去輔助你實際工作的人才是缺失的。

現(xiàn)在很多人才分析報告中就說過,大數(shù)據(jù)分析師這樣的人才是有價值的,而所謂大數(shù)據(jù)分析師其實是在應用這方面的。大數(shù)據(jù)時代企業(yè)的競 爭情報已經(jīng)發(fā)生了變化。比如說小米,每周去更新它的軟件其實就是根據(jù)用戶的反饋來做的。包括海爾這樣的傳統(tǒng)家電企業(yè),也在去年發(fā)布了全新的“網(wǎng)絡化戰(zhàn) 略”,張瑞敏就在該戰(zhàn)略中這樣說道,“ 原來用戶只是購買者,現(xiàn)在可以成為設(shè)計者,與生產(chǎn)者融合在一起,變成利益共同體。 ”“ 通過互聯(lián)網(wǎng)掌握競爭態(tài)勢,洞察客戶雪球,獲得互聯(lián)網(wǎng)的信息競爭力至關(guān)重要。 ”

關(guān)于大數(shù)據(jù)解讀爸爸去哪兒第二季, 首先是對節(jié)目的互聯(lián)網(wǎng)討論聲量檢測 ,因為在第一季的時候,通過對互聯(lián)網(wǎng)討論聲量檢測,節(jié)目組就發(fā)現(xiàn)了一個規(guī)律, 綜藝節(jié)目主要考慮的是收視率,如果在節(jié)目播出前網(wǎng)絡上討論度越高那么在節(jié)目播出之時的收視率就越高 。由于這樣的一個原因,所以在第二季的時候,節(jié)目組也就根據(jù)這樣的規(guī)律提高節(jié)目收視率。比如說在節(jié)目播出之前就有過關(guān)于爸爸去哪兒第二季討論的高潮,這其中不乏節(jié)目組的炒作,也是由于這樣的一個高熱度的討論,使得節(jié)目一播出就獲得了很高的收視率。 現(xiàn)在衡量一個品牌資產(chǎn)的一個簡單的方法就是在互聯(lián)網(wǎng)的信息空間中,根據(jù)跟品牌有關(guān)的數(shù)據(jù)的量進行評定,量大你未來在互聯(lián)網(wǎng)的世界里你品牌的影響力就高。

第二是關(guān)于嘉賓的聲量變化 ,節(jié)目開播前,陸毅黃磊等大陸知名明星在互聯(lián)網(wǎng)上的討論聲量比較大,而節(jié)目開播后,楊陽洋吳鎮(zhèn)宇的討論聲量明顯上升,成為節(jié)目黑馬。

這種變化,通過即時的互聯(lián)網(wǎng)大數(shù)據(jù)的分析,就能夠被節(jié)目組制作方所把握到,那么到后續(xù)的動作就可以基于這個進行快速調(diào)整。還有就是 嘉賓特色形象的轉(zhuǎn)變,比如說陸毅,在節(jié)目播出前大眾對他形象的認知可能只是停留在帥、男神上,而在第一集播出之后,逗比、黑暗料理這樣的形象標簽使得他的 形象也更加豐滿。

這也使廣告商在選擇代言人上有更多關(guān)注的點。這些都是因為有了互聯(lián)網(wǎng)有了大數(shù)據(jù)我們能夠每天及時的看到相應數(shù)據(jù)的變化。
第三是基于用戶關(guān)注的營銷策略調(diào)整 ,在最開始節(jié)目播出宣傳的時候,節(jié)目組對各個大人小孩在宣傳廣告中的比例是沒有太大差別的,如下圖。

而在節(jié)目播出之后,有了嘉賓討論聲量的變化后,節(jié)目組也就基于用戶的關(guān)注度改變了相應策略,在廣告所占比例上吳鎮(zhèn)宇就比較靠前。
第四是關(guān)于節(jié)目討論的焦點分析 ,這是在節(jié)目的每一集播出之后都要進行分析的,主要部分還是對節(jié)目嘉賓的討論,還有節(jié)目播出時的節(jié)目小情節(jié)、相關(guān)炒作、植入品牌以及爸爸和孩子們?nèi)ミ^的地點的討論,都可以作為焦點進行大數(shù)據(jù)分析。

第五是關(guān)于網(wǎng)絡討論者的分析 ,基于微博用戶信息的性別分布,可以看出的是女性討論者占大約 77% ,而男性用戶只占其中的 23% 。

從年齡段分布來看, 80 后 90 后分布較多,尤其以 90 后最為突出。

從討論者地域分布來看,東南沿海以及北方大城市活躍度較高,從這些信息就可以為一些線下活動提供參考依據(jù)。

對于網(wǎng)絡討論者來說可以對其進行交叉分析,從而得出更全面而具體的結(jié)論。
如何實現(xiàn)?
通過對新聞資訊網(wǎng)站、電子報、論壇、博客、貼吧、問答、百科、 SNS 網(wǎng)站、政府網(wǎng)站、微博、電商以及微信公眾號等進行數(shù)據(jù)采集,然后通過技術(shù)對其進行基于知識網(wǎng)絡的精準數(shù)據(jù)分析。

通過數(shù)據(jù)的專業(yè)分析工具——判定圖,支持復雜的邏輯分析。爸爸去哪兒第二季的判定圖中就有 2300 個標簽, 3500 個節(jié)點。根據(jù)這些標簽和節(jié)點而進行判定邏輯分析,數(shù)據(jù)標引分析,和量化數(shù)據(jù)分析從而得出準確而有效的數(shù)據(jù)報告。



對于新聞來說,貼標簽的同時就要做分詞,這樣標簽才會有相應的準確性。


分詞之后變成結(jié)構(gòu)化就可以由技術(shù)人員進行分析了,分析之后得出報告之后再做一個可視化的結(jié)構(gòu)呈現(xiàn)。因為英文有空格不需要分詞,而中 文必須要進行分詞才能更精確。比如說技術(shù)服務就要分為技術(shù)和服務兩個詞來進行標簽,河南開封這其中與南開大學就沒有什么關(guān)系。所以分詞在分析中很重要。
關(guān)于拿到數(shù)據(jù)后先要干什么然后要干什么對于大多數(shù)學員來說都會感到迷茫,演講嘉賓陳凱也給大家作出了回答。拿到數(shù)據(jù)首先要把數(shù)據(jù)內(nèi)容分析清楚(數(shù)字類、文本類等),搞清楚這些數(shù)據(jù)之后要考慮自己是否還需要增加一些數(shù)據(jù)。



在分析時第一步要定空間,也可以稱是數(shù)據(jù)勘察,主要是準確定位該數(shù)據(jù)在哪里,在企業(yè)內(nèi)部或是互聯(lián)網(wǎng)當中。第二步就是用一些比較粗淺 的準確率較低的數(shù)據(jù)進行分析篩選,然后進行調(diào)優(yōu),調(diào)優(yōu)之后形成模型分析維度。最后一步是不限于,也就是跟你提要求的客戶可能在表達時沒有把最后一句話表達 出來,而他說的最后一句話可能就是“不限于……”,現(xiàn)在所有想做大數(shù)據(jù)的人都是想知道他以前不知道的新的東西,所以分析師就要更進一步地對大數(shù)據(jù)進行深入 分析。另外一個不限于就是所說的,數(shù)據(jù)是一個動態(tài)變化的,不是說模型做完就不變的,要根據(jù)他的使用情況、互聯(lián)網(wǎng)的發(fā)展變化和數(shù)據(jù)內(nèi)容進行修正。
公開課:在北京理工大學大數(shù)據(jù)公開課(第2期)
主題之一:大數(shù)據(jù)解讀爸爸去哪兒2
時間:2014-10-25
地點:北京理工大學
演講嘉賓:海量信息技術(shù)有限公司產(chǎn)品副總裁,陳凱

