
范冰冰可是當下紅遍天下的演藝界女皇式巨星,粉絲遍及海內外。她是社會媒體大數據贊譽和吐槽的經久不衰的話題人物。
深度挖掘和解析大數據淹沒下的范冰冰,應該是一件既符合娛樂精神又有啟發意義的工作。準備做一個系列來,用我們的深度挖掘引擎,看看社會媒體口水大數據的一片混沌中到底隱含了幾多信息,哪些是眾所周知的,哪些是出人預料的。
華裔女星中,一直不太喜歡范冰冰,主要是覺得她的形象不接地氣:女神或妖精,總之不似人類,與我們喜歡的 鄰家女孩(girl next door)類型(如 徐靜蕾 高圓圓 這類)相距甚遠。然而,伊人的《武媚娘傳奇》熱播以后,驚艷嘆服之余,遂亦加入粉絲行列。尤其是年輕時的武媚娘扮相,美得簡直不像話,還讓不讓人活?

先報告一下這次挖掘的基本數據:
時間跨度是過去 27 個月(2013年二月到2015年五月)的中文社會媒體(包括繁體和粵語文字)。
下圖是挖掘總覽:
計 113萬 數據點,70 多萬條帖子,可達近 73 億的眼球瀏覽,可以算是大數據了吧。(關于此話題兩年多來的社媒數據量當然遠遠大于此數,可自家庫里現在的樣本就這么多,再多就要給內容分銷商追加額外的數據購買費了。這個樣本量比起傳統的問卷調查高出至少兩個數量級,作為情報挖掘,已經足以滿足統計意義上的代表性要求了。)
冰美人的社會媒體形象相當不錯,褒貶指數(Net Sentiment)高達 62%,這在娛樂圈公眾人物中也算是高高在上了,八萬五千條贊譽遠多于 一萬九千條吐槽。范爺威武!
熱度(數據點和眼球數)和褒貶的曲線圖。熱度起伏較大,應該與她主演的影視節目的宣傳和開播期相關。反映形象消長的褒貶指數變化不大,基本能保持高位,范冰冰仍然處于事業鼎盛期,顯然極受大眾歡迎。

下 圖是這次自動調查的數據來源。最大的來源是 twitter,14萬4,其次是天涯論壇(兩萬四千條)和百度貼吧(兩萬出頭)。再往下依次是香港 discuss.com.hk 網站,tumblr,club.kdnet.net, bbs.hupu.com, kaixin001.com, 西祠,豆瓣等,大名鼎鼎的臉書(facebook)和新浪微博 (weibo.com) 只有兩三千的帖子來源。(很遺憾,不包含微信,微信數據由于隱私限制,在可預見的將來,我們的挖掘還夠不著:其實微信當下才是社會媒體的旗艦,其他所有中 文社會媒體全加起來也沒有微信所達到的規模、代表性和影響力。騰訊的老爺們,你何時開放哪怕是部分的數據?)

下圖給數據來源做了分類,其中論壇占 60% ,新聞網站 20%,微博數據只有 8%。

這是數據來源地的地理分布。

欲知挖掘出來冰美人究竟有哪些有意思的信息,且聽下回分解。

