韩国毛片在线,午夜精品三级久久久有码,91在线看黄

究竟有多少數(shù)據(jù)才能建立互聯(lián)網(wǎng)金融風控模型？

發(fā)布時間：2015-11-06 KnowlesysOp

近兩年來，“大數(shù)據(jù)”一詞廣受熱議，提高了企業(yè)對數(shù)據(jù)及數(shù)據(jù)所產(chǎn)生的價值的重視，整體上推進了我國在各項商務應用和政務應用中數(shù)據(jù)支持的比重，提升了量化決策和科學決策的水平。然而，在大數(shù)據(jù)概念提出之前，我們也一直從事數(shù)據(jù)分析和建模的工作，在這里，我想談談大數(shù)據(jù)的出現(xiàn)，對互聯(lián)網(wǎng)金融風控模型構(gòu)建帶來了哪些影響。

對大數(shù)據(jù)的理解

首先我們來談談對于大數(shù)據(jù)的理解。

大數(shù)據(jù)一詞由維克托邁爾-舍恩伯格教授提出。有一種觀點認為大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。然而，各界對于大數(shù)據(jù)定義存在較大差異，比較通用的觀點是用4V特點來描述：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（價值）。

在互聯(lián)網(wǎng)金融領域，如何來理解呢？

互聯(lián)網(wǎng)金融可以應用的大數(shù)據(jù)，首先體現(xiàn)在社交數(shù)據(jù)：微博微信等社交平臺早已深入人們的日常生活中，產(chǎn)生了大量文本數(shù)據(jù)和圖像視頻數(shù)據(jù)，這些數(shù)據(jù)的處理和存儲，分析，對于相關(guān)互聯(lián)網(wǎng)企業(yè)產(chǎn)生了挑戰(zhàn)。相應的存儲，處理和分析的需求應運而生。

這些數(shù)據(jù)的第一個特點是非結(jié)構(gòu)化，不是像傳統(tǒng)的數(shù)據(jù)，每個變量定義清晰，一條一條地存儲在數(shù)據(jù)表中。

第二個特點是多維度。比如，法律，旅游，水電，社保，娛樂，消費……等等維度的增加，也體現(xiàn)了大數(shù)據(jù)的“大”。

在互聯(lián)網(wǎng)金融領域現(xiàn)階段，分析這些數(shù)據(jù)產(chǎn)生個人信用的評分，和P2P公司實際業(yè)務所需要的評分模型，還有一定差距。

單純基于大數(shù)據(jù)的模型

效用有限

互聯(lián)網(wǎng)金融的風險控制模型經(jīng)常用到評分卡，例如：個人信用等級評分卡。然而要做評分卡，要計算相應的違約率，首先應該根據(jù)業(yè)務，定義目標變量，即輸出變量：什么樣的客戶算好客戶，什么樣的客戶是壞客戶。根據(jù)這個目標變量，我們再選擇相關(guān)的其它變量來考察各輸入變量對輸出變量的貢獻。

目前，很多企業(yè)在做單純基于大數(shù)據(jù)的評分模型，并沒有把違約與否的情況和網(wǎng)上的行為數(shù)據(jù)拼接起來，貌似有了一個評分，那也不過是按照自己的理解，對網(wǎng)上行為做了一個初步的整理，從模型的角度，已經(jīng)有了偏差，即模型偏差。所以在應用上，要做到對風險進行準確定價，實用價值有限。

然而我并不是說所有的主要基于大數(shù)據(jù)的模型都不能用，我們要分開來看這個問題，對于像淘寶，京東等形成自己的業(yè)務閉環(huán)的商業(yè)模式中，盡可以使用各種方法對自己業(yè)務中產(chǎn)生大數(shù)據(jù)進行分析，因為他們的目標變量和所謂大數(shù)據(jù)變量是可以拼接到一起的。但是對于P2P機構(gòu)來說，由于并不是所有的貸款申請人都有淘寶賬戶，京東賬戶，所以這里的所謂大數(shù)據(jù)，大數(shù)據(jù)模型要落地還是比較困難的。

回歸到互聯(lián)網(wǎng)金融領域，對于申請人，如果拉一個央行的征信報告，那還算方便，其實征信報告的數(shù)據(jù)也比較規(guī)范，只不過是維度增加了；如果要拼接在網(wǎng)上的行為，各方面難度就比較大了。

同時由于”大數(shù)據(jù)”?的收集，整理，存儲，預處理，分析等的投入都比較大，所以我在這里說，有個所謂的費效比的8/2?效應。即對大數(shù)據(jù)分析投入的精力與其產(chǎn)出實際效應的比例約為8：2。由此可見，單純基于大數(shù)據(jù)構(gòu)建的互聯(lián)網(wǎng)金融風控模型意義是有限的。

如果為P2P公司構(gòu)建風控模型的工作中，使用的大多數(shù)是脫敏數(shù)據(jù)（不包含姓名等個人信息），這就使與大數(shù)據(jù)拼接十分困難。目前大數(shù)據(jù)對于互聯(lián)網(wǎng)金融領域的貢獻，我們認為主要在反欺詐領域，我們?yōu)镻2P公司風險控制設計的反欺詐模型就利用了很多互聯(lián)網(wǎng)的數(shù)據(jù)源。

隨著互聯(lián)網(wǎng)金融和中國征信行業(yè)的發(fā)展，我相信大數(shù)據(jù)也會越來越多的為我們的風控模型貢獻價值。

傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)拼接

在社交數(shù)據(jù)出現(xiàn)之前，互聯(lián)網(wǎng)金融行業(yè)已經(jīng)積累了大量的業(yè)務數(shù)據(jù)，這些業(yè)務數(shù)據(jù)基本上都是結(jié)構(gòu)化存儲，而且數(shù)據(jù)質(zhì)量都比較好，數(shù)據(jù)的業(yè)務定義也比較清晰。所以在應用”大數(shù)據(jù)”之前，怎么發(fā)揮已有的結(jié)構(gòu)化數(shù)據(jù)的價值，是我們數(shù)據(jù)分析建模工作的基礎，和目前的重點。

那么具體的，?我們應該如何結(jié)合現(xiàn)有的數(shù)據(jù)選擇怎么樣的算法來做這個事情呢？

在傳統(tǒng)銀行以及大多數(shù)互聯(lián)網(wǎng)金融機構(gòu)，首先看的是違約，那么就把違約與否作為好壞客戶的定義，然后在選擇諸如，工資，性別，年齡，房產(chǎn)，車產(chǎn)等作為輸入變量，這是所謂的傳統(tǒng)、結(jié)構(gòu)化數(shù)據(jù)，我也稱之為基礎數(shù)據(jù)；而對于大數(shù)據(jù)，我們認為，應該在傳統(tǒng)數(shù)據(jù)的基礎上，相對于目標變量，做一個拼接，即：

目標變量?=?基礎變量?+?大數(shù)據(jù)變量

只有在此基礎上，做出來的模型才有意義。但是，做這個拼接，從數(shù)據(jù)收集的角度來說，是有難度的。

實際上，在傳統(tǒng)金融領域，對于違約與否，主要考察的是兩個方面，還款能力和還款意愿。理論上說，如果直接有這兩個變量，那我們就不需要其他的輸入變量了。我們所選擇的一些輸入變量，就是來還原這兩個方面。同時，我們之所以在模型中加入大數(shù)據(jù)，也是因為某些數(shù)據(jù)的加入，能對更準確還原這兩方面貢獻一些信息。

同時，互聯(lián)網(wǎng)金融，有豐富多彩的業(yè)務模式，風險管理注重的方面也大大豐富了，如惡意欺詐，多頭負債，朋友貸中對信譽的高度重視，學生貸中考察他的學業(yè)能力，?等等。

風控模型需要多大數(shù)據(jù)

下面我們來聊聊互聯(lián)網(wǎng)金融風控模型需要多大的數(shù)據(jù)？這需要先回答一個問題：?“最少需要多少數(shù)據(jù)？數(shù)據(jù)是不是越多越好？“

作為IFRE技術(shù)負責人與客戶接觸的時候，經(jīng)常碰到一個問題：由于眾所周知的原因，各家P2P機構(gòu)對自己的違約率都比較敏感，擔心全量數(shù)據(jù)給我們之后，泄露商業(yè)機密，這是可以理解的。但是顯然，全量數(shù)據(jù)所做的模型應該是最準確的。

在沒有大數(shù)據(jù)這個名詞出現(xiàn)之前，?我們做模型對于數(shù)據(jù)的要求是這樣的：抽樣的樣本對于總體有代表性(representative)：即樣本和總體的各項指標是一樣的，那么用樣本做出來的模型，才可以代表總體；第二個假設是，總體數(shù)據(jù)做隱含的規(guī)律是穩(wěn)定的(stationary/stability)。

同時還有一個隱含的假設，做模型的數(shù)據(jù)表現(xiàn)和要用到模型的個體數(shù)據(jù)的統(tǒng)計性狀是相同的，即用歷史數(shù)據(jù)模擬的分數(shù)，和以后的客戶，如果評分相同，那么他們的表現(xiàn)也相同。只有這樣，模型才可以用。否則，還是會產(chǎn)生偏差。

假設有輸入變量，”性別”，包含兩個屬性：

男，?女；?身高，包含三個屬性：高，中，低。

那么，所有的屬性組合是?2*3=6個屬性，即：

“男，高”，“男，中”，?“男，低“，“女，高”，“女，中”，?“女，低“。

引申開來，如果模型中有10個輸入變量，每個有兩個屬性，那么至少需要2的十次方，1024?條數(shù)據(jù)，?才能把這些屬性組合覆蓋。我們才能說，哪一個屬性對于目標變量的貢獻是多少，然后是哪一個變量對于目標變量的貢獻是多少。隨著變量的增加，對于數(shù)據(jù)數(shù)量的要求是指數(shù)級增長。

由此可知，在互聯(lián)網(wǎng)金融風控模型搭建中，基于成本與效率考慮，數(shù)據(jù)并不是越多越好，同時我們需要具有穩(wěn)定性數(shù)據(jù)，更需要對每一個變量背后的業(yè)務含義具有深刻的了解。

Via：劉時斌

樂思輿情監(jiān)測中心（www.07zn.com）文章，轉(zhuǎn)載請注明出處，謝謝！

分類: 大數(shù)據(jù)應用標簽:

上一篇 : 【輿情頭條】18歲兒子見父母討論生二孩語出驚人：財產(chǎn)要多分！(151110)

下一篇 : 【輿情頭條】一高中生的手機被老師暫扣竟跳樓自殺！(151105)