隨著大數(shù)據(jù)風潮的來臨,在改變數(shù)字產(chǎn)業(yè)的同時,也讓更多關聯(lián)產(chǎn)業(yè)產(chǎn)生了顛覆性的變化,例如征信行業(yè)以及以征信為基礎的金融行業(yè)。?行為數(shù)據(jù)化,數(shù)據(jù)信用化,在這一系列流程中,曾經(jīng)評判個人或者企業(yè)的標準和方式已經(jīng)被深刻地打上時代烙印,帶有更多“大數(shù)據(jù)特性”以及“互聯(lián)網(wǎng)特性”,刻畫個體畫像的方式在變化,打造刻畫不同畫像模型的征信行業(yè)也正在變化。
大數(shù)據(jù)時代讓非金融數(shù)據(jù)獲得了全新生命。一方面,針對非金融數(shù)據(jù)的分析和建模在某些領域或主題上,獲得了較針對傳統(tǒng)金融數(shù)據(jù)分析后更為有價值的結果;另一方面,當前中國社會存在著大量并不擁有金融數(shù)據(jù)的群體,大數(shù)據(jù)時代讓這一群體有了可被“評判”的標準,進而享受更多的社會服務。
當大數(shù)據(jù)碰撞征信會產(chǎn)生什么?那么,《第一財經(jīng)日報》記者專訪了哈佛大學數(shù)據(jù)挖掘和風險建模專家Dan?Steinberg以及前海征信CEO邱寒。兩位業(yè)內(nèi)最為權威的專家,就當下流行的獲取數(shù)據(jù)的方式、獲取數(shù)據(jù)的類型、分析數(shù)據(jù)的方式,以及未來如何擁抱這些變化等話題進行討論,以期能幫助廣大讀者理解就這些變化在當下能起何種作用。
日報:在數(shù)據(jù)獲取方面,當前的數(shù)據(jù)和過去的數(shù)據(jù)在獲取渠道以及數(shù)據(jù)類型存有哪些主要的差別?
Dr.Dan:我這有一個非常有趣的案例。一家英國網(wǎng)站,可以幫助登錄該網(wǎng)站并回答網(wǎng)頁上面問題的用戶預測壽命長短。最有意思的是這些問題的設計,并非如血壓值以及同身體相關的傳統(tǒng)醫(yī)學數(shù)據(jù),
而是采集,平時走路的速度,睡覺的時長等看似跟醫(yī)學并不相關的問題。同時,這些問題的設計者也均來自英國頂級醫(yī)學研究者。他們在做預測模型的時候發(fā)現(xiàn),真正醫(yī)學數(shù)據(jù)并未帶來有效價值,反而是看上去不起眼、看似沒有關聯(lián)性的數(shù)據(jù)產(chǎn)生了真正的效用。
大數(shù)據(jù)時代的到來,讓更多人猜想,類似的事件是否會發(fā)生信用風險管理上,一些意想不到的數(shù)據(jù)可能會跟信用產(chǎn)生一些關聯(lián)。對于數(shù)據(jù)分析模型來說,在最初可能會投入上千個變量,但最終產(chǎn)生實際效用的可能僅有20個,而當前的大數(shù)據(jù)研究、機器學習所聚焦的也更多在于幫助分析師從那些認為可能存有關聯(lián),或者看似完全不具有關聯(lián)性的數(shù)據(jù)中,提取、聚焦出真正相關的變量。
邱寒:的確,我在實際的分析建模工作中也發(fā)現(xiàn),很多原先并不被認為與借貸風險相關的新型數(shù)據(jù)在實際分析中顯示出了對于借貸風險的預測能力。比如一些網(wǎng)絡使用習慣的數(shù)據(jù)。類似的研究在美國的一些創(chuàng)新型互聯(lián)網(wǎng)金融公司中也在進行,也發(fā)現(xiàn)了許多有趣的新指標。與十幾年前根據(jù)美國信用卡數(shù)據(jù)進行風險建模時不同,目前就我們前海征信來說,我們所使用的維度已經(jīng)大大超過傳統(tǒng)的金融建模方法,被測試的字段可能高達千計,而最終進入模型的有效字段也往往有幾百個。大數(shù)據(jù)時代,不管從數(shù)據(jù)來源還是建模方法上都產(chǎn)生了巨大的變化。
日報:不同的授信額度對應的數(shù)據(jù)需求有哪些差異?是否微小額度更注重驗真,大額度授信更為復雜?
Dr.Dan:?我曾經(jīng)在新西蘭做一個項目時產(chǎn)生了非常有趣的結果。人們對于自己身份會提供ID證明,而不同的提供方式代表著信用程度不同。當時人們一般選擇兩種呈現(xiàn)方式,一種是出示護照,另外一種是出示身份證、駕照等。數(shù)據(jù)顯示,利用護照的用戶群體更容易違約。
雖然這說明呈現(xiàn)ID的方式對違約程度具有指向性,但是如果這種測量方式被意圖違約的人知道了,那么這個騙貸的群體將不會再選擇護照這種方式,同時這種測量方式的效度會短時間內(nèi)高速下降,因為這種方式一旦被這一群體所了解,他們會選擇反向操作。
我對個人授信不甚了解,但從曾經(jīng)企業(yè)信貸違約模型搭建經(jīng)驗表明,對于不同放貸額度對數(shù)據(jù)要求的確不同。當面對大企業(yè)、中性企業(yè)以及小微企業(yè)等不同規(guī)模的企業(yè)時,所運用的變量數(shù)量相差無幾,但是具體的變量維度的確各不相同,不同類型企業(yè)運用的數(shù)據(jù)內(nèi)容各不相同。
邱寒:正如我一直所說的,風險評估是一個系統(tǒng)工程,并非一個信用分可以解決所有問題。從信用分到負債承受能力等多個維度都會對一個人最終的還款行為產(chǎn)生影響。小額授信和大額授信的確從流程上是存在很大不同的,同時有無抵押品的流程以及不同場景均會存在較大差異。現(xiàn)在一概而論微小貸看重驗證并不合適,因為如果防范得不到位,也會積小成多,造成重大損失。
日報:目前在國際上通行的在判斷個人信用方面,包含哪些信用判斷維度?金融數(shù)據(jù)占據(jù)怎樣的角色和地位?
Dr.Dan:?我覺得,尚無法從全球角度給出一個全局層面的判斷。但在新西蘭的一個信貸項目經(jīng)驗表明,某些屬性、維度、字段并非屬于金融數(shù)據(jù)的數(shù)據(jù)類型對于信審模型起到的作用比原始金融數(shù)據(jù)更重要。當面對金融數(shù)據(jù)缺失時,這些數(shù)據(jù)的價值就會被進一步放大,中國目前擁有大量金融數(shù)據(jù)缺失的客戶,而放貸機構無法讓客戶現(xiàn)行刷卡五年,五年后擁有金融數(shù)據(jù)后再行放貸。
如果能夠證明,其他非金融數(shù)據(jù)在某種程度上能夠代替原始金融數(shù)據(jù),甚至有產(chǎn)生比金融數(shù)據(jù)更好的效果,那么會大幅提升中國信貸領域的效率,同時中國信用體系也會實現(xiàn)跳躍式發(fā)展。
邱寒:很多風險預測維度的確存在國際差異,其中有一部分維度是國際通用的,但也有一部分是與不同國家的特定情況相關聯(lián)。例如,經(jīng)驗發(fā)現(xiàn)在美國發(fā)現(xiàn)開寶馬車的人的信用表現(xiàn)比開通用汽車的人得信用表現(xiàn)要好,但該結論在中國并不適用。實際操作過程中往往會發(fā)現(xiàn)很多與別的國家不一樣的一些維度。這樣的差異很多時候同各個國家的文化,習慣有關系。
與此同時,與這些創(chuàng)新型指標不同,金融數(shù)據(jù)的表現(xiàn)在不同的國家卻往往呈現(xiàn)出比較一致的結果。在最終模型中的權重當然還是有差異的,但效果方向卻往往是一致的。我注意到,經(jīng)驗數(shù)據(jù)顯示,在模型中金融數(shù)據(jù)還是發(fā)揮著最重要的角色,至少占據(jù)了65%以上的解釋度。
日報:面對相同的數(shù)據(jù),在整合和分析方面,相比過去現(xiàn)在是否會由于技術的升級而出現(xiàn)不一樣的結果?變化主要有哪些?對于金融機構來說,意義又在于哪些方面?
Dr.Dan:目前在數(shù)據(jù)分析方面,相對于評分卡、邏輯回歸等常用方法外,最為先進的數(shù)據(jù)分析方法是Treenet(隨機梯度提升)。相對于傳統(tǒng)分析方式,Treenet有三方面的好處,第一,擁有數(shù)據(jù)缺失值處理的能力;第二,不同于傳統(tǒng)非線性建模;第三,具有交互作用,可以同時考量2-3個變量。
同時,treenet可以讓更多的數(shù)據(jù)維度更充分地利用到模型之中。邏輯回歸等經(jīng)典模型所利用的數(shù)據(jù)維度比較少,而treenet能夠讓更多有預測性的維度被包含到模型之中,同時精度也有一定提升。
某機構如果大規(guī)模使用這種機器學習方式,同時運行幾百上千個模型,如果每一個模型在使用過程中效率的提升是微小的,但是產(chǎn)生的累計效應是巨量的、驚人的。
此外,許多金融機構在制作模型的過程中,在利用經(jīng)典模型、經(jīng)典方法過程中需要大量的人工接入,一旦有人工就受制于人力資源的現(xiàn)實。例如,一共5個分析師,每個人都有很多人工工作,導致每個月只能建構4個模型,但其實很多業(yè)務場景都需要模型,進而導致在其他業(yè)務上沒有運用模型,或者運用精度不高的模型。新技術的產(chǎn)生讓更多的業(yè)務、更多的分析主體被覆蓋,因此生產(chǎn)效率也得到相應的提升。
邱寒:傳統(tǒng)的建模過程,要經(jīng)過數(shù)據(jù)準備,數(shù)據(jù)清洗,建模,驗證,實測等等過程,一整套流程往往需要耗費幾個月,對于風險評分卡而言,由于涉及到的測試更為全面和嚴格,周期甚至更長。這樣的周期肯定不能適應大數(shù)據(jù)時代得需要。同時,由于在大數(shù)據(jù)時代數(shù)據(jù)量與覆蓋的維度與以前不可同日而語,必須使用創(chuàng)新的建模方法。前海征信獨創(chuàng)了多維立體納米建模方法,融合深度神經(jīng)網(wǎng)絡,機器學習和傳統(tǒng)的邏輯回歸等方法,大量使用自動模型訓練,極大地提高了建模的效率。能做到實時反饋實時優(yōu)化。
日報:通過數(shù)據(jù)來判斷一個人的信用是否能夠完全規(guī)避風險?如果不能,風險點在哪里?金融機構該如何更加有效地運用這些數(shù)據(jù)?
Dr.Dan:在某種程度上,金融數(shù)據(jù)依舊扮演非常重要的角色。例如,一個人信用額度用的使用比例,假設該用戶擁有5張信用卡,總共額度是10萬塊錢,上一個季度用了只有2%的額度還是90%的額度,這樣的信息,比該客戶到星巴克點了什么咖啡,近期看了間諜片還是科幻片更有價值。但目前問題是,中國大量群體金融數(shù)據(jù)確實,只能尋找其他數(shù)據(jù)來代替,試圖發(fā)現(xiàn)該類數(shù)據(jù)可能存在有效性。
舉個例子,曾經(jīng)給紐約某家大型銀行做一個項目,當時這家銀行在做“目錄營銷”,即在給客戶郵寄信用卡賬單的同時附帶一些推銷的廣告,例如電視機、旅游產(chǎn)品,收取傭金,以作為銀行另一個營收渠道。在美國,互聯(lián)網(wǎng)真正普及之前,目錄營銷是除了實體店銷售外最大的直銷型商業(yè)模式。
因為數(shù)據(jù)量很大,當時有美國專業(yè)賣數(shù)據(jù)的公司,收集了每一個客戶的地址,將所有主要從事目錄營銷公司做了一個集中調(diào)查,了解到某一個具體地址,在當年響應了哪些目錄營銷的活動。這種方式類似于當下某些互聯(lián)網(wǎng)利用瀏覽器中的cookies收集瀏覽歷史一樣,通過cookies了解網(wǎng)民訪問了哪些網(wǎng)站。
當時針對獲取的這部分數(shù)據(jù)以及該銀行自身的金融數(shù)據(jù)制作做了一些模型,其中一個模型僅僅利用了銀行方面的數(shù)據(jù),另外一個模型則相反,只運用了目錄營銷的數(shù)據(jù)。模型分析結果顯示,錄營銷的數(shù)據(jù)幾乎沒有產(chǎn)生作用,仍然是銀行自身的數(shù)據(jù)占據(jù)了主導作用。金融自身的數(shù)據(jù)還是最重要的。傳統(tǒng)金融數(shù)據(jù)不可取代,部分群體數(shù)據(jù)缺失的情況下,可以試圖尋找相對次優(yōu)的方法。
邱寒:目前看來,金融自身的數(shù)據(jù)還是最重要的,在我們前海征信的模型中占據(jù)了大部分的解釋度。當然一些創(chuàng)新數(shù)據(jù)也在發(fā)揮作用。我認為應該充分嘗試,謹慎使用。
風險評分是一項非常專業(yè)和嚴肅的工作,除了準確度之外,還非常關注穩(wěn)定性。因為,有些創(chuàng)新變量可能在某段時間某些情況下有作用,例如也許會發(fā)現(xiàn)喜歡穿紅衣服的人信用情況比較好,但是一兩個月后又變成喜歡穿綠衣服的人信用情況比較好了。這一類變量就是有相關性但穩(wěn)定性很差的。這時候就要平衡好準確性和穩(wěn)定性的選擇。有一個建模專業(yè)術語叫做避免over-fitting(過度擬合),這在風險建模工作中尤為重要,就是要更多選用有解釋度并且穩(wěn)定性高的解釋維度。從目前的實踐情況來看,金融自身的數(shù)據(jù)不僅是解釋度的貢獻度高,穩(wěn)定性表現(xiàn)也是非常好的。
日報:中國和美國的社會信用環(huán)境的區(qū)別是什么?觀察國內(nèi)的數(shù)家征信機構中,哪個機構具有一定的領先性?
Dr.Dan:我盡管沒有在中國市場工作,但是比較確信的是不同市場所運用的模型以及授信評分機制存在差別較大,這種區(qū)別受制于經(jīng)濟、文化等多種因素。應該比較欣喜地看到,像前海征信這樣的中國企業(yè)開始嶄露頭角,相信如果中國的征信機構把工作做的好,完全可能有一天某家機構成為中國的FICO,成為真正具有競爭力的征信機構。甚至在未來,當積累足夠多的經(jīng)驗之后,可以走出國門,赴越南、馬來西亞等國家一顯身手。不可否認,這個過程可能是漫長的,從美國的FICO從上個世紀60年代就已經(jīng)開始從事這個事情,可以看到這條路一定是漫長的。但是千里之行始于足下,類似前海征信這樣具有前瞻性的公司已經(jīng)走出了第一步。
邱寒:作為在國內(nèi)的相關行業(yè)的從業(yè)者,這個問題我是這么看的,其實我們才剛剛起步,還有很多當務之急的事情要去做。作為人民銀行第一批批準進行個人征信準備的征信機構,我們前海征信立足于金融,一方面采用了國際前沿的大數(shù)據(jù)技術,同時也保存了歷史驗證有效的傳統(tǒng)算法的核心內(nèi)容。在構建評分卡的過程中,同美國FICO,韓國NICE等都有過深入的交流,獨創(chuàng)的多維立體納米評分技術也得到國際專家的認可。由此不難看出,由于大家都看到了征信的重要性,國際國內(nèi)的同行之間的互動日益密切和較強,最簡單的例子就是,眾所周知,F(xiàn)ICO是這方面的國際權威,但它的評分技術還偏重在傳統(tǒng)技術和金融數(shù)據(jù)上,他們也希望學習前海征信整合金融與非金融、結構化和非結構化數(shù)據(jù)的經(jīng)驗,進一步推動模型的升級;反過來也一樣,我們也在學習國際國內(nèi)先進同行的經(jīng)驗。
VIA:《第一財經(jīng)日報》
樂思輿情監(jiān)測中心(www.07zn.com)文章,轉載請注明出處,謝謝!