隨著大數(shù)據(jù)風(fēng)潮的來(lái)臨,在改變數(shù)字產(chǎn)業(yè)的同時(shí),也讓更多關(guān)聯(lián)產(chǎn)業(yè)產(chǎn)生了顛覆性的變化,例如征信行業(yè)以及以征信為基礎(chǔ)的金融行業(yè)。?行為數(shù)據(jù)化,數(shù)據(jù)信用化,在這一系列流程中,曾經(jīng)評(píng)判個(gè)人或者企業(yè)的標(biāo)準(zhǔn)和方式已經(jīng)被深刻地打上時(shí)代烙印,帶有更多“大數(shù)據(jù)特性”以及“互聯(lián)網(wǎng)特性”,刻畫(huà)個(gè)體畫(huà)像的方式在變化,打造刻畫(huà)不同畫(huà)像模型的征信行業(yè)也正在變化。
大數(shù)據(jù)時(shí)代讓非金融數(shù)據(jù)獲得了全新生命。一方面,針對(duì)非金融數(shù)據(jù)的分析和建模在某些領(lǐng)域或主題上,獲得了較針對(duì)傳統(tǒng)金融數(shù)據(jù)分析后更為有價(jià)值的結(jié)果;另一方面,當(dāng)前中國(guó)社會(huì)存在著大量并不擁有金融數(shù)據(jù)的群體,大數(shù)據(jù)時(shí)代讓這一群體有了可被“評(píng)判”的標(biāo)準(zhǔn),進(jìn)而享受更多的社會(huì)服務(wù)。
當(dāng)大數(shù)據(jù)碰撞征信會(huì)產(chǎn)生什么?那么,《第一財(cái)經(jīng)日?qǐng)?bào)》記者專(zhuān)訪(fǎng)了哈佛大學(xué)數(shù)據(jù)挖掘和風(fēng)險(xiǎn)建模專(zhuān)家Dan?Steinberg以及前海征信CEO邱寒。兩位業(yè)內(nèi)最為權(quán)威的專(zhuān)家,就當(dāng)下流行的獲取數(shù)據(jù)的方式、獲取數(shù)據(jù)的類(lèi)型、分析數(shù)據(jù)的方式,以及未來(lái)如何擁抱這些變化等話(huà)題進(jìn)行討論,以期能幫助廣大讀者理解就這些變化在當(dāng)下能起何種作用。
日?qǐng)?bào):在數(shù)據(jù)獲取方面,當(dāng)前的數(shù)據(jù)和過(guò)去的數(shù)據(jù)在獲取渠道以及數(shù)據(jù)類(lèi)型存有哪些主要的差別?
Dr.Dan:我這有一個(gè)非常有趣的案例。一家英國(guó)網(wǎng)站,可以幫助登錄該網(wǎng)站并回答網(wǎng)頁(yè)上面問(wèn)題的用戶(hù)預(yù)測(cè)壽命長(zhǎng)短。最有意思的是這些問(wèn)題的設(shè)計(jì),并非如血壓值以及同身體相關(guān)的傳統(tǒng)醫(yī)學(xué)數(shù)據(jù),
而是采集,平時(shí)走路的速度,睡覺(jué)的時(shí)長(zhǎng)等看似跟醫(yī)學(xué)并不相關(guān)的問(wèn)題。同時(shí),這些問(wèn)題的設(shè)計(jì)者也均來(lái)自英國(guó)頂級(jí)醫(yī)學(xué)研究者。他們?cè)谧鲱A(yù)測(cè)模型的時(shí)候發(fā)現(xiàn),真正醫(yī)學(xué)數(shù)據(jù)并未帶來(lái)有效價(jià)值,反而是看上去不起眼、看似沒(méi)有關(guān)聯(lián)性的數(shù)據(jù)產(chǎn)生了真正的效用。
大數(shù)據(jù)時(shí)代的到來(lái),讓更多人猜想,類(lèi)似的事件是否會(huì)發(fā)生信用風(fēng)險(xiǎn)管理上,一些意想不到的數(shù)據(jù)可能會(huì)跟信用產(chǎn)生一些關(guān)聯(lián)。對(duì)于數(shù)據(jù)分析模型來(lái)說(shuō),在最初可能會(huì)投入上千個(gè)變量,但最終產(chǎn)生實(shí)際效用的可能僅有20個(gè),而當(dāng)前的大數(shù)據(jù)研究、機(jī)器學(xué)習(xí)所聚焦的也更多在于幫助分析師從那些認(rèn)為可能存有關(guān)聯(lián),或者看似完全不具有關(guān)聯(lián)性的數(shù)據(jù)中,提取、聚焦出真正相關(guān)的變量。
邱寒:的確,我在實(shí)際的分析建模工作中也發(fā)現(xiàn),很多原先并不被認(rèn)為與借貸風(fēng)險(xiǎn)相關(guān)的新型數(shù)據(jù)在實(shí)際分析中顯示出了對(duì)于借貸風(fēng)險(xiǎn)的預(yù)測(cè)能力。比如一些網(wǎng)絡(luò)使用習(xí)慣的數(shù)據(jù)。類(lèi)似的研究在美國(guó)的一些創(chuàng)新型互聯(lián)網(wǎng)金融公司中也在進(jìn)行,也發(fā)現(xiàn)了許多有趣的新指標(biāo)。與十幾年前根據(jù)美國(guó)信用卡數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)建模時(shí)不同,目前就我們前海征信來(lái)說(shuō),我們所使用的維度已經(jīng)大大超過(guò)傳統(tǒng)的金融建模方法,被測(cè)試的字段可能高達(dá)千計(jì),而最終進(jìn)入模型的有效字段也往往有幾百個(gè)。大數(shù)據(jù)時(shí)代,不管從數(shù)據(jù)來(lái)源還是建模方法上都產(chǎn)生了巨大的變化。
日?qǐng)?bào):不同的授信額度對(duì)應(yīng)的數(shù)據(jù)需求有哪些差異?是否微小額度更注重驗(yàn)真,大額度授信更為復(fù)雜?
Dr.Dan:?我曾經(jīng)在新西蘭做一個(gè)項(xiàng)目時(shí)產(chǎn)生了非常有趣的結(jié)果。人們對(duì)于自己身份會(huì)提供ID證明,而不同的提供方式代表著信用程度不同。當(dāng)時(shí)人們一般選擇兩種呈現(xiàn)方式,一種是出示護(hù)照,另外一種是出示身份證、駕照等。數(shù)據(jù)顯示,利用護(hù)照的用戶(hù)群體更容易違約。
雖然這說(shuō)明呈現(xiàn)ID的方式對(duì)違約程度具有指向性,但是如果這種測(cè)量方式被意圖違約的人知道了,那么這個(gè)騙貸的群體將不會(huì)再選擇護(hù)照這種方式,同時(shí)這種測(cè)量方式的效度會(huì)短時(shí)間內(nèi)高速下降,因?yàn)檫@種方式一旦被這一群體所了解,他們會(huì)選擇反向操作。
我對(duì)個(gè)人授信不甚了解,但從曾經(jīng)企業(yè)信貸違約模型搭建經(jīng)驗(yàn)表明,對(duì)于不同放貸額度對(duì)數(shù)據(jù)要求的確不同。當(dāng)面對(duì)大企業(yè)、中性企業(yè)以及小微企業(yè)等不同規(guī)模的企業(yè)時(shí),所運(yùn)用的變量數(shù)量相差無(wú)幾,但是具體的變量維度的確各不相同,不同類(lèi)型企業(yè)運(yùn)用的數(shù)據(jù)內(nèi)容各不相同。
邱寒:正如我一直所說(shuō)的,風(fēng)險(xiǎn)評(píng)估是一個(gè)系統(tǒng)工程,并非一個(gè)信用分可以解決所有問(wèn)題。從信用分到負(fù)債承受能力等多個(gè)維度都會(huì)對(duì)一個(gè)人最終的還款行為產(chǎn)生影響。小額授信和大額授信的確從流程上是存在很大不同的,同時(shí)有無(wú)抵押品的流程以及不同場(chǎng)景均會(huì)存在較大差異?,F(xiàn)在一概而論微小貸看重驗(yàn)證并不合適,因?yàn)槿绻婪兜貌坏轿唬矔?huì)積小成多,造成重大損失。
日?qǐng)?bào):目前在國(guó)際上通行的在判斷個(gè)人信用方面,包含哪些信用判斷維度?金融數(shù)據(jù)占據(jù)怎樣的角色和地位?
Dr.Dan:?我覺(jué)得,尚無(wú)法從全球角度給出一個(gè)全局層面的判斷。但在新西蘭的一個(gè)信貸項(xiàng)目經(jīng)驗(yàn)表明,某些屬性、維度、字段并非屬于金融數(shù)據(jù)的數(shù)據(jù)類(lèi)型對(duì)于信審模型起到的作用比原始金融數(shù)據(jù)更重要。當(dāng)面對(duì)金融數(shù)據(jù)缺失時(shí),這些數(shù)據(jù)的價(jià)值就會(huì)被進(jìn)一步放大,中國(guó)目前擁有大量金融數(shù)據(jù)缺失的客戶(hù),而放貸機(jī)構(gòu)無(wú)法讓客戶(hù)現(xiàn)行刷卡五年,五年后擁有金融數(shù)據(jù)后再行放貸。
如果能夠證明,其他非金融數(shù)據(jù)在某種程度上能夠代替原始金融數(shù)據(jù),甚至有產(chǎn)生比金融數(shù)據(jù)更好的效果,那么會(huì)大幅提升中國(guó)信貸領(lǐng)域的效率,同時(shí)中國(guó)信用體系也會(huì)實(shí)現(xiàn)跳躍式發(fā)展。
邱寒:很多風(fēng)險(xiǎn)預(yù)測(cè)維度的確存在國(guó)際差異,其中有一部分維度是國(guó)際通用的,但也有一部分是與不同國(guó)家的特定情況相關(guān)聯(lián)。例如,經(jīng)驗(yàn)發(fā)現(xiàn)在美國(guó)發(fā)現(xiàn)開(kāi)寶馬車(chē)的人的信用表現(xiàn)比開(kāi)通用汽車(chē)的人得信用表現(xiàn)要好,但該結(jié)論在中國(guó)并不適用。實(shí)際操作過(guò)程中往往會(huì)發(fā)現(xiàn)很多與別的國(guó)家不一樣的一些維度。這樣的差異很多時(shí)候同各個(gè)國(guó)家的文化,習(xí)慣有關(guān)系。
與此同時(shí),與這些創(chuàng)新型指標(biāo)不同,金融數(shù)據(jù)的表現(xiàn)在不同的國(guó)家卻往往呈現(xiàn)出比較一致的結(jié)果。在最終模型中的權(quán)重當(dāng)然還是有差異的,但效果方向卻往往是一致的。我注意到,經(jīng)驗(yàn)數(shù)據(jù)顯示,在模型中金融數(shù)據(jù)還是發(fā)揮著最重要的角色,至少占據(jù)了65%以上的解釋度。
日?qǐng)?bào):面對(duì)相同的數(shù)據(jù),在整合和分析方面,相比過(guò)去現(xiàn)在是否會(huì)由于技術(shù)的升級(jí)而出現(xiàn)不一樣的結(jié)果?變化主要有哪些?對(duì)于金融機(jī)構(gòu)來(lái)說(shuō),意義又在于哪些方面?
Dr.Dan:目前在數(shù)據(jù)分析方面,相對(duì)于評(píng)分卡、邏輯回歸等常用方法外,最為先進(jìn)的數(shù)據(jù)分析方法是Treenet(隨機(jī)梯度提升)。相對(duì)于傳統(tǒng)分析方式,Treenet有三方面的好處,第一,擁有數(shù)據(jù)缺失值處理的能力;第二,不同于傳統(tǒng)非線(xiàn)性建模;第三,具有交互作用,可以同時(shí)考量2-3個(gè)變量。
同時(shí),treenet可以讓更多的數(shù)據(jù)維度更充分地利用到模型之中。邏輯回歸等經(jīng)典模型所利用的數(shù)據(jù)維度比較少,而treenet能夠讓更多有預(yù)測(cè)性的維度被包含到模型之中,同時(shí)精度也有一定提升。
某機(jī)構(gòu)如果大規(guī)模使用這種機(jī)器學(xué)習(xí)方式,同時(shí)運(yùn)行幾百上千個(gè)模型,如果每一個(gè)模型在使用過(guò)程中效率的提升是微小的,但是產(chǎn)生的累計(jì)效應(yīng)是巨量的、驚人的。
此外,許多金融機(jī)構(gòu)在制作模型的過(guò)程中,在利用經(jīng)典模型、經(jīng)典方法過(guò)程中需要大量的人工接入,一旦有人工就受制于人力資源的現(xiàn)實(shí)。例如,一共5個(gè)分析師,每個(gè)人都有很多人工工作,導(dǎo)致每個(gè)月只能建構(gòu)4個(gè)模型,但其實(shí)很多業(yè)務(wù)場(chǎng)景都需要模型,進(jìn)而導(dǎo)致在其他業(yè)務(wù)上沒(méi)有運(yùn)用模型,或者運(yùn)用精度不高的模型。新技術(shù)的產(chǎn)生讓更多的業(yè)務(wù)、更多的分析主體被覆蓋,因此生產(chǎn)效率也得到相應(yīng)的提升。
邱寒:傳統(tǒng)的建模過(guò)程,要經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)清洗,建模,驗(yàn)證,實(shí)測(cè)等等過(guò)程,一整套流程往往需要耗費(fèi)幾個(gè)月,對(duì)于風(fēng)險(xiǎn)評(píng)分卡而言,由于涉及到的測(cè)試更為全面和嚴(yán)格,周期甚至更長(zhǎng)。這樣的周期肯定不能適應(yīng)大數(shù)據(jù)時(shí)代得需要。同時(shí),由于在大數(shù)據(jù)時(shí)代數(shù)據(jù)量與覆蓋的維度與以前不可同日而語(yǔ),必須使用創(chuàng)新的建模方法。前海征信獨(dú)創(chuàng)了多維立體納米建模方法,融合深度神經(jīng)網(wǎng)絡(luò),機(jī)器學(xué)習(xí)和傳統(tǒng)的邏輯回歸等方法,大量使用自動(dòng)模型訓(xùn)練,極大地提高了建模的效率。能做到實(shí)時(shí)反饋實(shí)時(shí)優(yōu)化。
日?qǐng)?bào):通過(guò)數(shù)據(jù)來(lái)判斷一個(gè)人的信用是否能夠完全規(guī)避風(fēng)險(xiǎn)?如果不能,風(fēng)險(xiǎn)點(diǎn)在哪里?金融機(jī)構(gòu)該如何更加有效地運(yùn)用這些數(shù)據(jù)?
Dr.Dan:在某種程度上,金融數(shù)據(jù)依舊扮演非常重要的角色。例如,一個(gè)人信用額度用的使用比例,假設(shè)該用戶(hù)擁有5張信用卡,總共額度是10萬(wàn)塊錢(qián),上一個(gè)季度用了只有2%的額度還是90%的額度,這樣的信息,比該客戶(hù)到星巴克點(diǎn)了什么咖啡,近期看了間諜片還是科幻片更有價(jià)值。但目前問(wèn)題是,中國(guó)大量群體金融數(shù)據(jù)確實(shí),只能尋找其他數(shù)據(jù)來(lái)代替,試圖發(fā)現(xiàn)該類(lèi)數(shù)據(jù)可能存在有效性。
舉個(gè)例子,曾經(jīng)給紐約某家大型銀行做一個(gè)項(xiàng)目,當(dāng)時(shí)這家銀行在做“目錄營(yíng)銷(xiāo)”,即在給客戶(hù)郵寄信用卡賬單的同時(shí)附帶一些推銷(xiāo)的廣告,例如電視機(jī)、旅游產(chǎn)品,收取傭金,以作為銀行另一個(gè)營(yíng)收渠道。在美國(guó),互聯(lián)網(wǎng)真正普及之前,目錄營(yíng)銷(xiāo)是除了實(shí)體店銷(xiāo)售外最大的直銷(xiāo)型商業(yè)模式。
因?yàn)閿?shù)據(jù)量很大,當(dāng)時(shí)有美國(guó)專(zhuān)業(yè)賣(mài)數(shù)據(jù)的公司,收集了每一個(gè)客戶(hù)的地址,將所有主要從事目錄營(yíng)銷(xiāo)公司做了一個(gè)集中調(diào)查,了解到某一個(gè)具體地址,在當(dāng)年響應(yīng)了哪些目錄營(yíng)銷(xiāo)的活動(dòng)。這種方式類(lèi)似于當(dāng)下某些互聯(lián)網(wǎng)利用瀏覽器中的cookies收集瀏覽歷史一樣,通過(guò)cookies了解網(wǎng)民訪(fǎng)問(wèn)了哪些網(wǎng)站。
當(dāng)時(shí)針對(duì)獲取的這部分?jǐn)?shù)據(jù)以及該銀行自身的金融數(shù)據(jù)制作做了一些模型,其中一個(gè)模型僅僅利用了銀行方面的數(shù)據(jù),另外一個(gè)模型則相反,只運(yùn)用了目錄營(yíng)銷(xiāo)的數(shù)據(jù)。模型分析結(jié)果顯示,錄營(yíng)銷(xiāo)的數(shù)據(jù)幾乎沒(méi)有產(chǎn)生作用,仍然是銀行自身的數(shù)據(jù)占據(jù)了主導(dǎo)作用。金融自身的數(shù)據(jù)還是最重要的。傳統(tǒng)金融數(shù)據(jù)不可取代,部分群體數(shù)據(jù)缺失的情況下,可以試圖尋找相對(duì)次優(yōu)的方法。
邱寒:目前看來(lái),金融自身的數(shù)據(jù)還是最重要的,在我們前海征信的模型中占據(jù)了大部分的解釋度。當(dāng)然一些創(chuàng)新數(shù)據(jù)也在發(fā)揮作用。我認(rèn)為應(yīng)該充分嘗試,謹(jǐn)慎使用。
風(fēng)險(xiǎn)評(píng)分是一項(xiàng)非常專(zhuān)業(yè)和嚴(yán)肅的工作,除了準(zhǔn)確度之外,還非常關(guān)注穩(wěn)定性。因?yàn)椋行﹦?chuàng)新變量可能在某段時(shí)間某些情況下有作用,例如也許會(huì)發(fā)現(xiàn)喜歡穿紅衣服的人信用情況比較好,但是一兩個(gè)月后又變成喜歡穿綠衣服的人信用情況比較好了。這一類(lèi)變量就是有相關(guān)性但穩(wěn)定性很差的。這時(shí)候就要平衡好準(zhǔn)確性和穩(wěn)定性的選擇。有一個(gè)建模專(zhuān)業(yè)術(shù)語(yǔ)叫做避免over-fitting(過(guò)度擬合),這在風(fēng)險(xiǎn)建模工作中尤為重要,就是要更多選用有解釋度并且穩(wěn)定性高的解釋維度。從目前的實(shí)踐情況來(lái)看,金融自身的數(shù)據(jù)不僅是解釋度的貢獻(xiàn)度高,穩(wěn)定性表現(xiàn)也是非常好的。
日?qǐng)?bào):中國(guó)和美國(guó)的社會(huì)信用環(huán)境的區(qū)別是什么?觀察國(guó)內(nèi)的數(shù)家征信機(jī)構(gòu)中,哪個(gè)機(jī)構(gòu)具有一定的領(lǐng)先性?
Dr.Dan:我盡管沒(méi)有在中國(guó)市場(chǎng)工作,但是比較確信的是不同市場(chǎng)所運(yùn)用的模型以及授信評(píng)分機(jī)制存在差別較大,這種區(qū)別受制于經(jīng)濟(jì)、文化等多種因素。應(yīng)該比較欣喜地看到,像前海征信這樣的中國(guó)企業(yè)開(kāi)始嶄露頭角,相信如果中國(guó)的征信機(jī)構(gòu)把工作做的好,完全可能有一天某家機(jī)構(gòu)成為中國(guó)的FICO,成為真正具有競(jìng)爭(zhēng)力的征信機(jī)構(gòu)。甚至在未來(lái),當(dāng)積累足夠多的經(jīng)驗(yàn)之后,可以走出國(guó)門(mén),赴越南、馬來(lái)西亞等國(guó)家一顯身手。不可否認(rèn),這個(gè)過(guò)程可能是漫長(zhǎng)的,從美國(guó)的FICO從上個(gè)世紀(jì)60年代就已經(jīng)開(kāi)始從事這個(gè)事情,可以看到這條路一定是漫長(zhǎng)的。但是千里之行始于足下,類(lèi)似前海征信這樣具有前瞻性的公司已經(jīng)走出了第一步。
邱寒:作為在國(guó)內(nèi)的相關(guān)行業(yè)的從業(yè)者,這個(gè)問(wèn)題我是這么看的,其實(shí)我們才剛剛起步,還有很多當(dāng)務(wù)之急的事情要去做。作為人民銀行第一批批準(zhǔn)進(jìn)行個(gè)人征信準(zhǔn)備的征信機(jī)構(gòu),我們前海征信立足于金融,一方面采用了國(guó)際前沿的大數(shù)據(jù)技術(shù),同時(shí)也保存了歷史驗(yàn)證有效的傳統(tǒng)算法的核心內(nèi)容。在構(gòu)建評(píng)分卡的過(guò)程中,同美國(guó)FICO,韓國(guó)NICE等都有過(guò)深入的交流,獨(dú)創(chuàng)的多維立體納米評(píng)分技術(shù)也得到國(guó)際專(zhuān)家的認(rèn)可。由此不難看出,由于大家都看到了征信的重要性,國(guó)際國(guó)內(nèi)的同行之間的互動(dòng)日益密切和較強(qiáng),最簡(jiǎn)單的例子就是,眾所周知,F(xiàn)ICO是這方面的國(guó)際權(quán)威,但它的評(píng)分技術(shù)還偏重在傳統(tǒng)技術(shù)和金融數(shù)據(jù)上,他們也希望學(xué)習(xí)前海征信整合金融與非金融、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的經(jīng)驗(yàn),進(jìn)一步推動(dòng)模型的升級(jí);反過(guò)來(lái)也一樣,我們也在學(xué)習(xí)國(guó)際國(guó)內(nèi)先進(jìn)同行的經(jīng)驗(yàn)。
VIA:《第一財(cái)經(jīng)日?qǐng)?bào)》
樂(lè)思輿情監(jiān)測(cè)中心(www.07zn.com)文章,轉(zhuǎn)載請(qǐng)注明出處,謝謝!