【導(dǎo)述】怎樣利用微博數(shù)據(jù)從股市中掘金?氣象臺(tái)怎樣預(yù)報(bào)天氣并發(fā)布預(yù)警?Google如何通過(guò)搜索行為預(yù)報(bào)流感爆發(fā)?這些有趣的問(wèn)題背后,其實(shí)都隱藏著大數(shù)據(jù)的影子。基于對(duì)搜索行為、社交媒體等數(shù)據(jù)的深入分析,可以測(cè)量?jī)|萬(wàn)用戶的情緒變化、描繪用戶的行為模式、挖掘用戶的潛在需求,最終發(fā)掘出數(shù)據(jù)中蘊(yùn)含的真正價(jià)值。
2009年Google在《Nature》上公布了其利用搜索數(shù)據(jù)對(duì)全球流感疫情近乎實(shí)時(shí)評(píng)估的技術(shù):(1)2012年微軟紐約研究院經(jīng)濟(jì)學(xué)家David Rothschild在51個(gè)選區(qū)中準(zhǔn)確預(yù)測(cè)了50個(gè)選區(qū)的總統(tǒng)大選結(jié)果 (2)美國(guó)印第安納大學(xué)和曼徹斯特大學(xué)的三位學(xué)者依靠Twitter的情緒分析預(yù)測(cè)未來(lái)3-4天道瓊斯指數(shù)的漲跌 ,準(zhǔn)確率高達(dá)87.6%(3)。與此同時(shí),大數(shù)據(jù)技術(shù)還被廣泛應(yīng)用于道路擁堵、彩虹甚至地震等領(lǐng)域的預(yù)測(cè)。
搜狗搜索在大數(shù)據(jù)研究方面已經(jīng)有一定收獲。自2013年開(kāi)始,我們決定研發(fā)一個(gè)有挑戰(zhàn)性的社會(huì)化預(yù)測(cè)系統(tǒng),命名為#深思#(這個(gè)名字來(lái)源于《銀河系漫游指南》中的一部超級(jí)計(jì)算機(jī)),在不同領(lǐng)域進(jìn)行趨勢(shì)預(yù)測(cè),期望通過(guò)這個(gè)綜合系統(tǒng)來(lái)發(fā)現(xiàn)隱藏在大數(shù)據(jù)背后的奧秘。
本文以搜狗為案例,分析其電影票房預(yù)測(cè)的相關(guān)技術(shù),其他領(lǐng)域的研究成果將陸續(xù)發(fā)布。
票房預(yù)測(cè):需求與現(xiàn)實(shí)
從1896年西洋影戲傳入上海徐園,到1905年中國(guó)拍攝首部國(guó)產(chǎn)電影《定軍山》,再到2013年全國(guó)電影票房突破200億 大關(guān),(4)有著百余年歷史的中國(guó)電影產(chǎn)業(yè),在近幾年呈現(xiàn)出飛躍式發(fā)展的態(tài)勢(shì),無(wú)論是影片質(zhì)量、院線建設(shè)還是投資規(guī)模都有了長(zhǎng)足的發(fā)展。與此同時(shí),隨著“大數(shù)據(jù)”時(shí)代的到來(lái),電影觀影群體、觀影偏好與心理、電影信息傳播和獲取方式也都在發(fā)生著深刻的變化。
毋庸置疑,多樣化資本的加入是中國(guó)電影不可或缺的發(fā)展引擎,然而,電影行業(yè)以投資回報(bào)率難以預(yù)測(cè)著稱,大投入未必有大產(chǎn)出,票房預(yù)測(cè)工具的缺失使得投資者無(wú)法有效對(duì)沖投資風(fēng)險(xiǎn),華人著名導(dǎo)演吳宇森的《風(fēng)語(yǔ)者》就拖累了米高梅公司最終走向破產(chǎn)。因此制作與發(fā)行公司不得不考慮所有對(duì)票房有影響的因素:辣媽李小璐對(duì)《私人訂制》票房貢獻(xiàn)幾何;《風(fēng)暴》票房為何遠(yuǎn)低于其金牌制片人江志強(qiáng)預(yù)期;被吐槽“爛片”的《富山春居圖》和《小時(shí)代》緣何票房卻一路走紅;成龍大叔的《警察故事2013》有無(wú)必要拍成3D;《泰囧》的“報(bào)復(fù)性”觀影效應(yīng)能否復(fù)現(xiàn)……這一切的一切其實(shí)都可以從“大數(shù)據(jù)”中找到答案。因?yàn)榫W(wǎng)絡(luò)上的每一次瀏覽、查詢乃至點(diǎn)擊所匯聚成的群體智慧都“蝴蝶效應(yīng)”般地影響著電影的最終票房。
2013年Google在一份名為《Quantifying Movie Magic with Google Search》(5) 的白皮書中公布了其電影票房預(yù)測(cè)模型,該模型主要利用搜索、廣告點(diǎn)擊數(shù)據(jù)以及院線排片來(lái)預(yù)測(cè)票房,Google宣布其模型預(yù)測(cè)票房與真實(shí)票房的吻合程度達(dá)到了94%,但并未見(jiàn)其公開(kāi)對(duì)未上映電影的預(yù)測(cè)結(jié)果。
搜狗公司借助“深思”系統(tǒng),建立了更為復(fù)雜的模型,用于預(yù)測(cè)國(guó)內(nèi)電影票房,并在新浪微博上提前發(fā)布了2013年12月國(guó)內(nèi)上映電影的首周票房預(yù)測(cè)結(jié)果。很高興到目前為止預(yù)測(cè)結(jié)果與真實(shí)數(shù)據(jù)非常接近,同時(shí),我們的模型還可以用于對(duì)影響票房的因素進(jìn)行定量分析。
搜索查詢量的奧秘
搜狗搜索每天都響應(yīng)上億次的搜索請(qǐng)求,查詢?cè)~的分布和變化趨勢(shì)能夠很好的反映出中國(guó)網(wǎng)民的興趣點(diǎn)和關(guān)注指向。與Google的研究類似,我們也發(fā)現(xiàn),電影上映前相關(guān)查詢?cè)~的搜索次數(shù)與票房收入有著很強(qiáng)的關(guān)聯(lián)性。這一點(diǎn)很好理解,用戶的主動(dòng)搜索行為體現(xiàn)了用戶對(duì)這部電影的潛在興趣。
我們選取了2013年1-11月國(guó)內(nèi)上映的180部電影的票房和上映前的搜索量數(shù)據(jù)作為訓(xùn)練集,用于訓(xùn)練一個(gè)基礎(chǔ)的線性回歸模型。實(shí)驗(yàn)發(fā)現(xiàn),單純利用搜索量訓(xùn)練得到的模型,預(yù)測(cè)得到的首周票房與真實(shí)票房的相關(guān)度R方值僅為68%,這與Google僅用搜索數(shù)據(jù)得到的結(jié)果70%很接近。(注:R方值取值為0至1,值越大表示模型預(yù)測(cè)效果越好),這個(gè)結(jié)果也說(shuō)明無(wú)論在中國(guó)還是美國(guó),用戶的搜索行為是很相似的。
用搜索量來(lái)進(jìn)行預(yù)測(cè)票房是一個(gè)好的開(kāi)始,但是準(zhǔn)確度還遠(yuǎn)遠(yuǎn)不夠。同時(shí)很多搜索詞還存在歧義的情況,比如《生化危機(jī)》,既是電影也是游戲,混在一起會(huì)造成票房預(yù)測(cè)值偏高。進(jìn)一步研究發(fā)現(xiàn),游戲意圖的查詢請(qǐng)求量較為平穩(wěn),但電影意圖的查詢請(qǐng)求在上映前則有一個(gè)高峰,也可以通過(guò)用戶點(diǎn)擊的URL來(lái)進(jìn)一步確認(rèn)用戶的搜索意圖。因此模型需要再引入查詢量的變化趨勢(shì)和用戶點(diǎn)擊的分布情況。修正后的模型可以達(dá)到74%的準(zhǔn)確度,這時(shí)模型已經(jīng)可以對(duì)電影票房進(jìn)行一個(gè)粗略的估計(jì)。
社交媒體:用戶的情感分析
社交媒體數(shù)據(jù)對(duì)票房預(yù)測(cè)也會(huì)有一定幫助。假設(shè)你是某個(gè)明星的粉絲,打算去看他主演的電影,那么你很可能會(huì)提前轉(zhuǎn)發(fā)該電影的相關(guān)微博給你的朋友。國(guó)外已經(jīng)有很多預(yù)測(cè)項(xiàng)目都是在針對(duì)Twitter數(shù)據(jù)做研究,這里我們主要采用國(guó)內(nèi)部分微博網(wǎng)站的數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)。通過(guò)自然語(yǔ)言理解技術(shù),分析出用戶對(duì)未上映影片的情感傾向,從而轉(zhuǎn)換為用戶的觀影需求。進(jìn)一步可以考慮的因素包括微博轉(zhuǎn)發(fā)深度、評(píng)論活躍程度,以及相關(guān)微博數(shù)量隨電影上映日期臨近的變化趨勢(shì),這些數(shù)據(jù)都可以被有效的提煉為特征并加入到模型中。
微博數(shù)據(jù)的加入使得準(zhǔn)確率超過(guò)了80%。
基于垂直媒體的預(yù)測(cè)
為了衡量電影發(fā)行公司的宣傳發(fā)行力度以及用戶對(duì)宣傳的關(guān)注程度,我們也引入了一些垂直媒體的數(shù)據(jù)來(lái)增強(qiáng)預(yù)測(cè)能力。這里選擇了一些知名電影站點(diǎn)和頻道進(jìn)行統(tǒng)計(jì),其中包括視頻類站點(diǎn)(搜狐視頻、優(yōu)酷土豆、愛(ài)奇藝、騰訊視頻),娛樂(lè)類站點(diǎn)(搜狐娛樂(lè)、新浪娛樂(lè)、騰訊娛樂(lè)、鳳凰娛樂(lè)、網(wǎng)易娛樂(lè))和電影資訊類站點(diǎn)(豆瓣電影、電影網(wǎng)m1905、時(shí)光網(wǎng))。這些網(wǎng)站中電影的相關(guān)新聞數(shù)、預(yù)告片播放情況、用戶評(píng)論情況都可以通過(guò)定向抓取獲得,這些都是影響電影票房的重要相關(guān)因素。顯而易見(jiàn),中小成本電影往往由于資金有限,不可能做到大范圍的宣傳,而大制作電影的宣傳就會(huì)鋪天蓋地。
從統(tǒng)計(jì)分析來(lái)看,豆瓣電影對(duì)票房轉(zhuǎn)換率的貢獻(xiàn)要高于其它站點(diǎn),這可能跟站點(diǎn)的用戶構(gòu)成相關(guān)。引入了垂直媒體的數(shù)據(jù)后,準(zhǔn)確率從80%上升到了86%,提升效果顯著。
其它對(duì)票房有影響的因素
影響一部電影票房的因素非常繁雜,從電影導(dǎo)演、演員、編劇的票房號(hào)召力,到制片與發(fā)行公司的投資規(guī)模以及宣發(fā)成本,再到電影類型、產(chǎn)地、拍攝技術(shù)(3D,IMAX)以及是否續(xù)集,最后到上映時(shí)間、節(jié)假日、檔期、競(jìng)爭(zhēng)影片、院線排片以及上映前后的觀眾關(guān)注度、口碑傳播效應(yīng)甚至天氣都可以影響到一部電影的最終票房。
除了前面已經(jīng)介紹過(guò)的因素外,模型中實(shí)際采用的特征還包括:
檔期的電影競(jìng)爭(zhēng)情況。我們發(fā)現(xiàn)以往公開(kāi)的票房預(yù)測(cè)模型中對(duì)每部電影都是獨(dú)立預(yù)測(cè),沒(méi)有考慮電影間的競(jìng)爭(zhēng)關(guān)系,這顯然是不合理的。我們采用了獨(dú)有的算法來(lái)估計(jì)同檔期的其它影片對(duì)市場(chǎng)份額造成的影響。
電影類型。有意思的是,通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),科幻片最能提高票房,動(dòng)作片和犯罪片次之,而文藝片、傳記片和動(dòng)畫片在模型中表現(xiàn)最差。
電影產(chǎn)地。電影產(chǎn)地為好萊塢的電影,在其他因素與國(guó)產(chǎn)片相近的情況下,對(duì)票房大約有3000萬(wàn)到1.2億不等的提升。
檔期。特定檔期對(duì)票房有額外的加成作用,這個(gè)也比較符合預(yù)期。
是否3D。出人意料的是,在其它因素相近的情況下,是否3D對(duì)票房的影響非常小,沒(méi)有顯著差異。看來(lái)“偽3D”們可以省點(diǎn)后期3D制作費(fèi)啦。
預(yù)告片。通過(guò)視頻搜索預(yù)告片的趨勢(shì)也可以提前反映影片的受關(guān)注程度。
我們成功的把以上技術(shù)都整合到“深思”中,對(duì)用作訓(xùn)練的2013年1-11月的電影首周票房數(shù)據(jù),最新的模型能夠在交叉驗(yàn)證的情況下達(dá)到95.5%的準(zhǔn)確率。
因?yàn)橛?xùn)練集電影的總數(shù)較少(180部),我們做了大量的額外工作以確保最后的模型不會(huì)出現(xiàn)過(guò)擬合(over fitting)的情況。此時(shí)的“深思”已經(jīng)做好了對(duì)即將上映電影進(jìn)行票房預(yù)測(cè)的準(zhǔn)備。
實(shí)際預(yù)測(cè)效果
在實(shí)際研究過(guò)程中,12月份的電影上映前均使用“深思”系統(tǒng)預(yù)測(cè)了首周(7天)的電影票房,預(yù)測(cè)結(jié)果發(fā)布在一位團(tuán)隊(duì)成員的微博上。預(yù)測(cè)效果如下,在已經(jīng)預(yù)測(cè)的9部電影中,前4部大片的預(yù)測(cè)票房與真實(shí)票房很接近,比我們的預(yù)期還要略好一點(diǎn)。
結(jié)語(yǔ)
預(yù)測(cè)專家納特·西爾弗在《信號(hào)與噪聲:大數(shù)據(jù)時(shí)代預(yù)測(cè)的科學(xué)與藝術(shù)》一書中提到,大數(shù)據(jù)時(shí)代的預(yù)測(cè)更容易失敗,大部分失敗的預(yù)測(cè)都源于一種盲目的自信,用精確的預(yù)測(cè)來(lái)冒充準(zhǔn)確的預(yù)測(cè)。
對(duì)此我們有著清醒的認(rèn)識(shí),目前的票房預(yù)測(cè)模型還有若干需要改進(jìn)的方向。首先,目前模型的主要思想是通過(guò)電影上映前的用戶關(guān)注度來(lái)推算首周票房,這實(shí)際上沒(méi)有考慮電影上映后的口碑對(duì)票房的影響;其次,模型較為依賴歷史數(shù)據(jù),可能難以識(shí)別一些上映后脫穎而出的小成本“黑馬”電影;再次,目前的技術(shù)只能提前10天預(yù)報(bào)出首周票房,還可以更加超前。
總體而言,“深思”系統(tǒng)代表了搜狗公司在社會(huì)化預(yù)測(cè)方面一些新的嘗試。我們?cè)囍鴱姆彪s的海量數(shù)據(jù)中篩選出真正的信號(hào),努力穿越不確定性的迷霧,區(qū)分出未來(lái)圖景的哪些部分可以預(yù)測(cè),哪些不可預(yù)測(cè)。通向這個(gè)未來(lái)的道路還在探索之中,但目前工作已經(jīng)取得了一些不錯(cuò)的進(jìn)展,并給予了我們更大的信心。
來(lái)自: 鈦媒體