世界上有兩種迷信,一種是封建迷信,一種是真的。
香港股市有一個現(xiàn)象叫做“丁蟹效應(yīng)”,就是只要鄭少秋(他在《大時代》里的角色名是丁蟹)主演的電視開播,那么股市就會很詭異的下跌。
對這類現(xiàn)象的樸素解釋便是大家對于此類迷信寧可信其有不可信其無,看見鄭少秋就先選擇落袋為安,結(jié)果就導(dǎo)致股市大面積拋盤。對此還有一個專門的學(xué)術(shù)名詞——自我實(shí)現(xiàn)的預(yù)言(Self-fulfilling Prophecy)
而互聯(lián)網(wǎng)信息生產(chǎn)和處理的技術(shù)發(fā)展,可能能夠大大增強(qiáng)各類預(yù)言自我實(shí)現(xiàn)的能力。
去年12月22日紐約時報的一篇文章 Wall St. Computers Read the News, and Trade on It 報道說,華爾街開始利用程序來讀取各類新聞,社論,公司網(wǎng)站信息,微博;分析其中的詞匯,語法結(jié)果,甚至是表情符號,這些程序會判斷解析得到信息對市場的影響,并且自動進(jìn)行交易。(轉(zhuǎn)注: 用樂思網(wǎng)絡(luò)信息采集系統(tǒng)即可完成)
對于金融這樣一個對信息無限貪婪的行業(yè)而言,誰擁有更快更準(zhǔn)的信息獲取方式,誰就能戰(zhàn)勝對手。如同文中一個投資基金經(jīng)理所言,爭奪這類技術(shù)就是一場軍備競賽。類似彭博,道瓊斯,湯姆森路透已經(jīng)宣稱向華爾街提供新聞內(nèi)容篩選的服務(wù)。
而且,所有此類技術(shù)并非都是那么高科技,譬如道瓊斯公司就是利用一個包含3700個情感詞的詞典,來判斷對一篇文章的主題為正面還是負(fù)面。當(dāng)然會對 一些特殊語言現(xiàn)象進(jìn)行處理,譬如“terribly”單獨(dú)出現(xiàn)是負(fù)面的,但是“terribly good”則是正面的;而彭博會監(jiān)控新聞和微薄內(nèi)容,如果提到某公司的內(nèi)容數(shù)量突然大幅變動,就會通知相關(guān)客戶。
人們當(dāng)然有理由懷疑這些程序是否能夠那么準(zhǔn)確的判斷信息的正負(fù)面。事實(shí)上以我個人對情感分析技術(shù)的了解,如果不限定分析領(lǐng)域,如果能取得 70%-80%的準(zhǔn)確率,就已經(jīng)是不錯的成績;此外文本分析的另一個重要指標(biāo)覆蓋率也不容易保證,因為一篇看似完全不包含情感詞的文章很可能已經(jīng)在進(jìn)行諷 刺挖苦,譬如形容一本書的糟糕可能有人這么說:“當(dāng)年那些樹應(yīng)該用來做家具”。
但問題在于,如前文所言,華爾街的公司已經(jīng)在直接利用這些還不算特別靠譜的技術(shù)產(chǎn)生的還不那么靠譜的數(shù)據(jù)來進(jìn)行交易。去年五月,當(dāng)希臘的經(jīng)濟(jì)危機(jī)還在惡化時,華爾街的電腦在一篇相關(guān)文章中逮到了深淵(abyss)這個詞,于是立刻啟動了拋售相關(guān)金融產(chǎn)品的指令。
可是為什么這類技術(shù)也還遠(yuǎn)非完美的時候,就會有人迫不及待的使用呢?基本原因大概有二:
一,信息瞬息萬變,遠(yuǎn)非人力能夠處理,因此不成熟的技術(shù)也強(qiáng)過沒有;
二,即便你不想用,但是無法保證別人不用,且當(dāng)這類技術(shù)和數(shù)據(jù)左右已經(jīng)能夠左右市場的時候,你大概只有跟著不靠譜才行。就好像如果明天TVB重播“大時代”,香港股民也得掂量掂量。
所謂感知即現(xiàn)實(shí)(Perception is Reality),即便這是來自機(jī)器的感知。
不難聯(lián)想,如果香港銀行家們也利用相關(guān)的技術(shù)分析新聞,那么“鄭少秋”一定會成為一個敏感詞。
Twitter 曾經(jīng)在內(nèi)部會議上雄心勃勃的宣稱要做地球的脈搏(the Pulse of the Planet) 。的確,互聯(lián)網(wǎng)能夠產(chǎn)生的海量信息,一方面在時時刻刻反映現(xiàn)在的狀態(tài),另一方面也在對下一時刻產(chǎn)生影響;包括CIC在內(nèi)提供信息挖掘和分析的公司,就是這個時代的老中醫(yī),來替大家搭搭脈。
(轉(zhuǎn)載自網(wǎng)絡(luò) )