世界上有兩種迷信,一種是封建迷信,一種是真的。
香港股市有一個現象叫做“丁蟹效應”,就是只要鄭少秋(他在《大時代》里的角色名是丁蟹)主演的電視開播,那么股市就會很詭異的下跌。
對這類現象的樸素解釋便是大家對于此類迷信寧可信其有不可信其無,看見鄭少秋就先選擇落袋為安,結果就導致股市大面積拋盤。對此還有一個專門的學術名詞——自我實現的預言(Self-fulfilling Prophecy)
而互聯網信息生產和處理的技術發展,可能能夠大大增強各類預言自我實現的能力。
去年12月22日紐約時報的一篇文章 Wall St. Computers Read the News, and Trade on It 報道說,華爾街開始利用程序來讀取各類新聞,社論,公司網站信息,微博;分析其中的詞匯,語法結果,甚至是表情符號,這些程序會判斷解析得到信息對市場的影響,并且自動進行交易。(轉注: 用樂思網絡信息采集系統即可完成)
對于金融這樣一個對信息無限貪婪的行業而言,誰擁有更快更準的信息獲取方式,誰就能戰勝對手。如同文中一個投資基金經理所言,爭奪這類技術就是一場軍備競賽。類似彭博,道瓊斯,湯姆森路透已經宣稱向華爾街提供新聞內容篩選的服務。
而且,所有此類技術并非都是那么高科技,譬如道瓊斯公司就是利用一個包含3700個情感詞的詞典,來判斷對一篇文章的主題為正面還是負面。當然會對 一些特殊語言現象進行處理,譬如“terribly”單獨出現是負面的,但是“terribly good”則是正面的;而彭博會監控新聞和微薄內容,如果提到某公司的內容數量突然大幅變動,就會通知相關客戶。
人們當然有理由懷疑這些程序是否能夠那么準確的判斷信息的正負面。事實上以我個人對情感分析技術的了解,如果不限定分析領域,如果能取得 70%-80%的準確率,就已經是不錯的成績;此外文本分析的另一個重要指標覆蓋率也不容易保證,因為一篇看似完全不包含情感詞的文章很可能已經在進行諷 刺挖苦,譬如形容一本書的糟糕可能有人這么說:“當年那些樹應該用來做家具”。
但問題在于,如前文所言,華爾街的公司已經在直接利用這些還不算特別靠譜的技術產生的還不那么靠譜的數據來進行交易。去年五月,當希臘的經濟危機還在惡化時,華爾街的電腦在一篇相關文章中逮到了深淵(abyss)這個詞,于是立刻啟動了拋售相關金融產品的指令。
可是為什么這類技術也還遠非完美的時候,就會有人迫不及待的使用呢?基本原因大概有二:
一,信息瞬息萬變,遠非人力能夠處理,因此不成熟的技術也強過沒有;
二,即便你不想用,但是無法保證別人不用,且當這類技術和數據左右已經能夠左右市場的時候,你大概只有跟著不靠譜才行。就好像如果明天TVB重播“大時代”,香港股民也得掂量掂量。
所謂感知即現實(Perception is Reality),即便這是來自機器的感知。
不難聯想,如果香港銀行家們也利用相關的技術分析新聞,那么“鄭少秋”一定會成為一個敏感詞。
Twitter 曾經在內部會議上雄心勃勃的宣稱要做地球的脈搏(the Pulse of the Planet) 。的確,互聯網能夠產生的海量信息,一方面在時時刻刻反映現在的狀態,另一方面也在對下一時刻產生影響;包括CIC在內提供信息挖掘和分析的公司,就是這個時代的老中醫,來替大家搭搭脈。
(轉載自網絡 )