近兩年來,“大數(shù)據(jù)”一詞廣受熱議,提高了企業(yè)對數(shù)據(jù)及數(shù)據(jù)所產(chǎn)生的價值的重視,整體上推進了我國在各項商務應用和政務應用中數(shù)據(jù)支持的比重,提升了量化決策和科學決策的水平。然而,在大數(shù)據(jù)概念提出之前,我們也一直從事數(shù)據(jù)分析和建模的工作,在這里,我想談談大數(shù)據(jù)的出現(xiàn),對互聯(lián)網(wǎng)金融風控模型構(gòu)建帶來了哪些影響。
對大數(shù)據(jù)的理解
首先我們來談談對于大數(shù)據(jù)的理解。
大數(shù)據(jù)一詞由維克托邁爾-舍恩伯格教授提出。有一種觀點認為大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。然而,各界對于大數(shù)據(jù)定義存在較大差異,比較通用的觀點是用4V特點來描述:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
在互聯(lián)網(wǎng)金融領域,如何來理解呢?
互聯(lián)網(wǎng)金融可以應用的大數(shù)據(jù),首先體現(xiàn)在社交數(shù)據(jù):微博微信等社交平臺早已深入人們的日常生活中,產(chǎn)生了大量文本數(shù)據(jù)和圖像視頻數(shù)據(jù),這些數(shù)據(jù)的處理和存儲,分析,對于相關(guān)互聯(lián)網(wǎng)企業(yè)產(chǎn)生了挑戰(zhàn)。相應的存儲,處理和分析的需求應運而生。
這些數(shù)據(jù)的第一個特點是非結(jié)構(gòu)化,不是像傳統(tǒng)的數(shù)據(jù),每個變量定義清晰,一條一條地存儲在數(shù)據(jù)表中。
第二個特點是多維度。比如,法律,旅游,水電,社保,娛樂,消費……等等維度的增加,也體現(xiàn)了大數(shù)據(jù)的“大”。
在互聯(lián)網(wǎng)金融領域現(xiàn)階段,分析這些數(shù)據(jù)產(chǎn)生個人信用的評分,和P2P公司實際業(yè)務所需要的評分模型,還有一定差距。
單純基于大數(shù)據(jù)的模型
效用有限
互聯(lián)網(wǎng)金融的風險控制模型經(jīng)常用到評分卡,例如:個人信用等級評分卡。然而要做評分卡,要計算相應的違約率,首先應該根據(jù)業(yè)務,定義目標變量,即輸出變量:什么樣的客戶算好客戶,什么樣的客戶是壞客戶。根據(jù)這個目標變量,我們再選擇相關(guān)的其它變量來考察各輸入變量對輸出變量的貢獻。
目前,很多企業(yè)在做單純基于大數(shù)據(jù)的評分模型,并沒有把違約與否的情況和網(wǎng)上的行為數(shù)據(jù)拼接起來,貌似有了一個評分,那也不過是按照自己的理解,對網(wǎng)上行為做了一個初步的整理,從模型的角度,已經(jīng)有了偏差,即模型偏差。所以在應用上,要做到對風險進行準確定價,實用價值有限。
然而我并不是說所有的主要基于大數(shù)據(jù)的模型都不能用,我們要分開來看這個問題,對于像淘寶,京東等形成自己的業(yè)務閉環(huán)的商業(yè)模式中,盡可以使用各種方法對自己業(yè)務中產(chǎn)生大數(shù)據(jù)進行分析,因為他們的目標變量和所謂大數(shù)據(jù)變量是可以拼接到一起的。但是對于P2P機構(gòu)來說,由于并不是所有的貸款申請人都有淘寶賬戶,京東賬戶,所以這里的所謂大數(shù)據(jù),大數(shù)據(jù)模型要落地還是比較困難的。
回歸到互聯(lián)網(wǎng)金融領域,對于申請人,如果拉一個央行的征信報告,那還算方便,其實征信報告的數(shù)據(jù)也比較規(guī)范,只不過是維度增加了;如果要拼接在網(wǎng)上的行為,各方面難度就比較大了。
同時由于”大數(shù)據(jù)”?的收集,整理,存儲,預處理,分析等的投入都比較大,所以我在這里說,有個所謂的費效比的8/2?效應。即對大數(shù)據(jù)分析投入的精力與其產(chǎn)出實際效應的比例約為8:2。由此可見,單純基于大數(shù)據(jù)構(gòu)建的互聯(lián)網(wǎng)金融風控模型意義是有限的。
如果為P2P公司構(gòu)建風控模型的工作中,使用的大多數(shù)是脫敏數(shù)據(jù)(不包含姓名等個人信息),這就使與大數(shù)據(jù)拼接十分困難。目前大數(shù)據(jù)對于互聯(lián)網(wǎng)金融領域的貢獻,我們認為主要在反欺詐領域,我們?yōu)镻2P公司風險控制設計的反欺詐模型就利用了很多互聯(lián)網(wǎng)的數(shù)據(jù)源。
隨著互聯(lián)網(wǎng)金融和中國征信行業(yè)的發(fā)展,我相信大數(shù)據(jù)也會越來越多的為我們的風控模型貢獻價值。
傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)拼接
在社交數(shù)據(jù)出現(xiàn)之前,互聯(lián)網(wǎng)金融行業(yè)已經(jīng)積累了大量的業(yè)務數(shù)據(jù),這些業(yè)務數(shù)據(jù)基本上都是結(jié)構(gòu)化存儲,而且數(shù)據(jù)質(zhì)量都比較好,數(shù)據(jù)的業(yè)務定義也比較清晰。所以在應用”大數(shù)據(jù)”之前,怎么發(fā)揮已有的結(jié)構(gòu)化數(shù)據(jù)的價值,是我們數(shù)據(jù)分析建模工作的基礎,和目前的重點。
那么具體的,?我們應該如何結(jié)合現(xiàn)有的數(shù)據(jù)選擇怎么樣的算法來做這個事情呢?
在傳統(tǒng)銀行以及大多數(shù)互聯(lián)網(wǎng)金融機構(gòu),首先看的是違約,那么就把違約與否作為好壞客戶的定義,然后在選擇諸如,工資,性別,年齡,房產(chǎn),車產(chǎn)等作為輸入變量,這是所謂的傳統(tǒng)、結(jié)構(gòu)化數(shù)據(jù),我也稱之為基礎數(shù)據(jù);而對于大數(shù)據(jù),我們認為,應該在傳統(tǒng)數(shù)據(jù)的基礎上,相對于目標變量,做一個拼接,即:
目標變量?=?基礎變量?+?大數(shù)據(jù)變量
只有在此基礎上,做出來的模型才有意義。但是,做這個拼接,從數(shù)據(jù)收集的角度來說,是有難度的。
實際上,在傳統(tǒng)金融領域,對于違約與否,主要考察的是兩個方面,還款能力和還款意愿。理論上說,如果直接有這兩個變量,那我們就不需要其他的輸入變量了。我們所選擇的一些輸入變量,就是來還原這兩個方面。同時,我們之所以在模型中加入大數(shù)據(jù),也是因為某些數(shù)據(jù)的加入,能對更準確還原這兩方面貢獻一些信息。
同時,互聯(lián)網(wǎng)金融,有豐富多彩的業(yè)務模式,風險管理注重的方面也大大豐富了,如惡意欺詐,多頭負債,朋友貸中對信譽的高度重視,學生貸中考察他的學業(yè)能力,?等等。
風控模型需要多大數(shù)據(jù)
下面我們來聊聊互聯(lián)網(wǎng)金融風控模型需要多大的數(shù)據(jù)?這需要先回答一個問題:?“最少需要多少數(shù)據(jù)?數(shù)據(jù)是不是越多越好?“
作為IFRE技術(shù)負責人與客戶接觸的時候,經(jīng)常碰到一個問題:由于眾所周知的原因,各家P2P機構(gòu)對自己的違約率都比較敏感,擔心全量數(shù)據(jù)給我們之后,泄露商業(yè)機密,這是可以理解的。但是顯然,全量數(shù)據(jù)所做的模型應該是最準確的。
在沒有大數(shù)據(jù)這個名詞出現(xiàn)之前,?我們做模型對于數(shù)據(jù)的要求是這樣的:抽樣的樣本對于總體有代表性(representative):即樣本和總體的各項指標是一樣的,那么用樣本做出來的模型,才可以代表總體;第二個假設是,總體數(shù)據(jù)做隱含的規(guī)律是穩(wěn)定的(stationary/stability)。
同時還有一個隱含的假設,做模型的數(shù)據(jù)表現(xiàn)和要用到模型的個體數(shù)據(jù)的統(tǒng)計性狀是相同的,即用歷史數(shù)據(jù)模擬的分數(shù),和以后的客戶,如果評分相同,那么他們的表現(xiàn)也相同。只有這樣,模型才可以用。否則,還是會產(chǎn)生偏差。
假設有輸入變量,”性別”,包含兩個屬性:
男,?女;?身高,包含三個屬性:高,中,低。
那么,所有的屬性組合是?2*3=6個屬性,即:
“男,高”,“男,中”,?“男,低“,“女,高”,“女,中”,?“女,低“。
引申開來,如果模型中有10個輸入變量,每個有兩個屬性,那么至少需要2的十次方,1024?條數(shù)據(jù),?才能把這些屬性組合覆蓋。我們才能說,哪一個屬性對于目標變量的貢獻是多少,然后是哪一個變量對于目標變量的貢獻是多少。隨著變量的增加,對于數(shù)據(jù)數(shù)量的要求是指數(shù)級增長。
由此可知,在互聯(lián)網(wǎng)金融風控模型搭建中,基于成本與效率考慮,數(shù)據(jù)并不是越多越好,同時我們需要具有穩(wěn)定性數(shù)據(jù),更需要對每一個變量背后的業(yè)務含義具有深刻的了解。
Via:劉時斌
樂思輿情監(jiān)測中心(www.07zn.com)文章,轉(zhuǎn)載請注明出處,謝謝!