金融行業本質上是一場由數據驅動的信息化戰爭,從數據中及時捕獲有價值的交易信號,是投資致勝的關鍵因素。
在過去,投資者更多的是依靠傳統金融數據進行投資決策。傳統金融數據包括股票/債券的交易數據、上市公司的年報/財報、金融機構的研報數據、政府的統計數據、銀行用戶的借貸數據等。
另類數據順勢崛起,在幫助投資者打開多維分析視角,挖掘獨特超額收益Alpha因子方面發揮巨大價值,受到越來越多的投資者青睞。
一、什么是另類數據
另類數據,目前沒有統一明確的定義,泛指區別于傳統金融數據的,有利于投資者進行投資決策的有價值信息。分為以下三大類:
個人產生數據:社交網絡信息、電商平臺評價、搜索記錄、購物喜好等。
商業過程數據:商業運輸、物流數據、信用卡使用記錄、訂購、預定數據、購買支付數據等。
傳感器數據:衛星數據、GPS定位數據、車輛軌跡、運動軌跡、穿戴設備數據等。

可以看到,另類數據主要是互聯網、物聯網數據?;ヂ摼W的高速發展,圍繞人類和商業的行為幾乎都可以數字化,積累沉淀大量的個人和商業過程數據。物聯網技術則讓原本不被感知的物理世界成為可數據化的分析對象,逐步形成了大量的物理數據資產。
二、另類數據的特點
與基本面、財務、歷史行情等傳統金融數據相比,另類數據具備數據量大、實時性高、數據種類多的特點,是對傳統金融數據的重要補充,為投資者提供更廣泛的交易思路、更多維的分析角度。
體量大:數據規模與傳輸量巨大。數據以極快的速度積累。根據 IDC 的一份報告,2018 年全球有 33ZB 的數據,而這個數量預計在 2025 年會增長到 175ZB。其中絕大部分分布在互聯網各個網站中。
實時性高:數據的獲取和傳輸是實時或者接近實時。以上市公司營收信息為例,傳統方式是從年報/中報中獲得。年報集中于3-4月披露,中報集中于7-8月披露,具有時間延后性。而通過實時監測此公司去年全年線上銷售情況,投資者在1月就能知曉此公司上一年營收情況。
數據種類多:另類數據的形式結構很多樣。有數值、圖片、文本、音頻、視頻等多種數據類型,結構化的、半結構化的、非結構化的都有。尤其是非結構化的文本型數據近年來猛增,是重要的挖掘研究對象。