【導(dǎo)讀】:商業(yè)銀行的諸多業(yè)務(wù)中,零售業(yè)務(wù)有著龐大的客戶資源和強(qiáng)大的價(jià)值創(chuàng)造力,體量巨大、種類繁多、處理速度快,天然地與大數(shù)據(jù)相契合。今天我們就來(lái)看一份零售銀行的大數(shù)據(jù)應(yīng)用方案。
普通數(shù)據(jù)組的介紹
針對(duì)所有客戶每月收入和支出的分類分析數(shù)組是一直存在的。這類數(shù)組是因?yàn)榭蛻翥y行賬戶借記、貸記等各種日常操作而產(chǎn)生的。每一筆交易的產(chǎn)生通常都伴隨著一個(gè)電子號(hào)碼,比如電費(fèi)話費(fèi)單、商戶類別碼等等。此外,我們還可以通過(guò)商戶名稱、描述以及留言來(lái)對(duì)交易進(jìn)行區(qū)分。
我們可以識(shí)別出很多消費(fèi)類別,比如房產(chǎn)類消費(fèi)(租金或者按揭)、能源類消費(fèi)(加油或者電費(fèi))、食品及家居類消費(fèi)、教育類、汽車消費(fèi)、餐飲、大額項(xiàng)目(購(gòu)買電視、家具)、稅費(fèi)、娛樂(lè)、信用卡和貸款支付、奢侈品等等。
同樣,收入分類有工資、分紅、退稅交易、社會(huì)福利收入、房租收入、銷售等等。通過(guò)簡(jiǎn)單的回歸分析可以得到針對(duì)每個(gè)客戶的收入支出情況的整體趨勢(shì),以及每個(gè)細(xì)分類別的趨勢(shì)。
機(jī)器學(xué)習(xí)和預(yù)測(cè)
我們可以使用各種機(jī)器學(xué)習(xí)算法和模型來(lái)做預(yù)測(cè)。這里我們介紹兩種算法:監(jiān)督學(xué)習(xí)以及非監(jiān)督學(xué)習(xí)。
監(jiān)督學(xué)習(xí)算法通過(guò)分析和驗(yàn)證歷史數(shù)據(jù)來(lái)得到模型,這個(gè)模型可以通過(guò)輸入數(shù)據(jù)之間的聯(lián)系得到確定的結(jié)果。樣本數(shù)據(jù)可以隨意選取,但是最好提前進(jìn)行分組處理以得到更準(zhǔn)備的結(jié)果。通常可以將客戶數(shù)組數(shù)據(jù)按照年齡、收入、地域、教育背影以及儲(chǔ)蓄量進(jìn)行分類。每一類還會(huì)繼續(xù)細(xì)分,比如年齡可以分成5個(gè)20的層級(jí)。我們能直接看到每一層級(jí)中客戶的數(shù)量,從而我們可以從每一層級(jí)里抽取5%的樣本數(shù)據(jù)來(lái)進(jìn)行分析。這類樣本數(shù)據(jù)能夠讓我們最直接地看出哪個(gè)類別對(duì)最后結(jié)果的影響最大。比如我們可以很明顯地看出教育背影對(duì)投資產(chǎn)品的影響最大。
非監(jiān)督機(jī)器學(xué)習(xí)算法則會(huì)從現(xiàn)有的數(shù)據(jù)中尋找未知的關(guān)聯(lián)模型。我們可以通過(guò)那些非正常的客戶行為模式中來(lái)找到欺詐信息的蛛絲馬跡。
1.產(chǎn)品的私人訂制
銀行可以把錢省下來(lái)去做那些昂貴的市場(chǎng)推廣活動(dòng)來(lái)宣傳銀行產(chǎn)品。產(chǎn)品應(yīng)該最大程度地提供給那些有可能需要并接受它們的人,所以應(yīng)該針對(duì)客戶推薦與其最相關(guān)的產(chǎn)品。這些就需要好好研究客戶之前都愛使用哪些產(chǎn)品。
客戶所使用的銀行產(chǎn)品和服務(wù)的歷史數(shù)據(jù)都可以拿來(lái)做分析,并生成獨(dú)立的模型。我們篩選并驗(yàn)證出最好的學(xué)習(xí)算法,然后用它們計(jì)算哪些類別和變量能產(chǎn)生最大的效果。
2.金融欺詐的早期偵測(cè)以及減少欺詐損失
這項(xiàng)內(nèi)容包括識(shí)別身份造假、信用卡欺詐、電信欺詐、洗錢以及對(duì)網(wǎng)上銀行和移動(dòng)銀行的攻擊。不斷出現(xiàn)的新型欺詐手段需要靈活、迅速的檢測(cè)算法。過(guò)去,銀行只使用基于統(tǒng)計(jì)學(xué)和規(guī)則的算法去識(shí)別可疑行為。這些算法有很大的局限性,因?yàn)樗鼈冎荒茏R(shí)別已知的欺詐手段,維護(hù)成本高,計(jì)算中無(wú)法覆蓋每個(gè)用戶的全部歷史數(shù)據(jù),并且經(jīng)常誤報(bào)。
我們使用了包含已知欺詐案件的數(shù)據(jù)集。這些欺詐案件被分為幾類儲(chǔ)存,如盜取身份透支欺詐,信用卡盜竊,消費(fèi)信貸欺詐,偽造支票償還信用卡,盜竊支票,盜錄磁條復(fù)制卡片,使用竊取的客戶憑證或安全設(shè)備攻擊網(wǎng)上銀行,流氓電商運(yùn)用信用卡詐騙等等。我們使用了利用反向傳播進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)和決策樹兩種算法。這些算法對(duì)已有數(shù)據(jù)進(jìn)行處理,從而識(shí)別新型詐騙的出現(xiàn)。
3.預(yù)測(cè)客戶流失和取消服務(wù)
銀行對(duì)客戶流失和取消服務(wù)的預(yù)測(cè)有很強(qiáng)的時(shí)間敏感性,因?yàn)樵诳蛻舨豢赏旎氐貨Q定取消某項(xiàng)服務(wù)或轉(zhuǎn)投競(jìng)爭(zhēng)對(duì)手之前,留給銀行的時(shí)間僅有幾天而已。銀行必須及早識(shí)別那些有可能流失的客戶并聯(lián)系他們,為他們提供其它可選擇的服務(wù)或是解決他們的問(wèn)題。留存能帶來(lái)高利潤(rùn)的活躍客戶的成本比起流失他們之后再吸引回來(lái)的成本要低得多。
我們預(yù)測(cè)時(shí)使用的原始數(shù)據(jù)包括賬戶流動(dòng)情況,借記卡和信用卡流動(dòng)情況,CRM中記錄的客戶數(shù)據(jù),服務(wù)訂購(gòu)數(shù)據(jù),服務(wù)中心和分支機(jī)構(gòu)的訪問(wèn)交易數(shù)據(jù)以及登錄信息等。常用的收入和支出數(shù)據(jù)也被納入其中。
我們還建立關(guān)鍵事件的時(shí)間序列,諸如注銷借記卡,從其它銀行轉(zhuǎn)入的工資、分紅、租金等收入,客戶主動(dòng)聯(lián)系服務(wù)中心或是訪問(wèn)分支機(jī)構(gòu),注銷信用卡等等。
我們還建立了另外一組客戶集,他們符合年齡、收入、存款和地理位置分布等畫像但仍然是銀行的存留客戶。
基于以上,我們建立了有效的模型以預(yù)測(cè)客戶在不可挽回地轉(zhuǎn)投競(jìng)爭(zhēng)對(duì)手之前的一系列行為。我們已經(jīng)使用了一些監(jiān)督學(xué)習(xí)算法,例如支撐向量機(jī)進(jìn)行二類分類以及利用用反向傳播的神經(jīng)網(wǎng)絡(luò)。在使用主成分分析對(duì)輸入數(shù)據(jù)進(jìn)行降維后,我們使用非監(jiān)督學(xué)習(xí)算法中的K聚類算法和KCm算法來(lái)降低輸入數(shù)據(jù)的維度。
我們?cè)谧罱臄?shù)據(jù)中識(shí)別出了數(shù)百名符合模式的活躍用戶,在他們轉(zhuǎn)投競(jìng)爭(zhēng)對(duì)手之前,相關(guān)分行應(yīng)當(dāng)及早進(jìn)行聯(lián)絡(luò)。
4.ATM機(jī)和銀行網(wǎng)點(diǎn)中現(xiàn)金分配的最優(yōu)解決方案
對(duì)于ATM機(jī)和銀行網(wǎng)點(diǎn)而言,一年之中不同時(shí)段的現(xiàn)金需求量是在不斷變化的。這種變化可能由天氣、突發(fā)事件、假期及旅游等各種因素引發(fā)。準(zhǔn)確預(yù)測(cè)出ATM機(jī)和銀行網(wǎng)點(diǎn)的現(xiàn)金需求量非常重要。無(wú)論是頻繁地往ATM機(jī)里放現(xiàn)金,還是ATM機(jī)因缺少現(xiàn)金而停止使用,成本都很高。另一方面,我們又不希望出現(xiàn)ATM機(jī)和網(wǎng)點(diǎn)長(zhǎng)期持有冗余現(xiàn)金的情況,因?yàn)檫@既不是最優(yōu)的現(xiàn)金分配方法,同時(shí)也會(huì)加大引發(fā)犯罪的可能。
我們會(huì)使用多個(gè)維度的數(shù)據(jù)進(jìn)行分析,包括:ATM機(jī)的服務(wù)日志,ATM機(jī)和銀行網(wǎng)點(diǎn)的地理位置信息,每臺(tái)ATM機(jī)的提款數(shù)據(jù),ATM機(jī)和銀行網(wǎng)點(diǎn)當(dāng)?shù)氐奶鞖忸A(yù)報(bào),賽事安排,每個(gè)地區(qū)的文化活動(dòng)、重要事件以及節(jié)假日安排。此外,信用卡和借記卡的流動(dòng)情況也是重要的數(shù)據(jù)源,可以判斷不同地區(qū)在每年不同時(shí)間的現(xiàn)金需求量。我們使用普通數(shù)據(jù)組來(lái)確定不同地區(qū)客戶的工資、社會(huì)福利和其它收入的到賬時(shí)間。
我們提取并分析了這樣一些數(shù)據(jù),包括:所有ATM機(jī)在一年中每一天取現(xiàn)數(shù)量的中位數(shù),所有ATM機(jī)一天中每小時(shí)取現(xiàn)數(shù)量的中位數(shù)。這一數(shù)據(jù)集被用來(lái)計(jì)算天氣、重要事件、星期幾及節(jié)假日對(duì)某一具體地區(qū)的現(xiàn)金需求量的影響。我們還將過(guò)去4年間的重要文化、體育及其它事件與其發(fā)生的地理坐標(biāo)數(shù)據(jù)結(jié)合加以處理,計(jì)算出了每項(xiàng)事件對(duì)其輻射范圍100米以內(nèi)的ATM機(jī)的現(xiàn)金需求量的影響。根據(jù)影響程度的不同,我們對(duì)這些事件進(jìn)行了分類。這一數(shù)據(jù)組可以預(yù)測(cè)以后類似事件的影響。
同時(shí),我們計(jì)算了天氣與當(dāng)?shù)孛颗_(tái)ATM機(jī)現(xiàn)金需求量的相關(guān)性,過(guò)程中涉及到的天氣相關(guān)的參數(shù)包括降水量、溫度和風(fēng)力等。
另外,我們還建立數(shù)組分析了不同地區(qū)收入(包括工資、社會(huì)福利等)到賬日和現(xiàn)金需求量的相關(guān)性。
基于以上數(shù)據(jù)集,我們建立了預(yù)測(cè)每臺(tái)ATM機(jī)和網(wǎng)點(diǎn)一年中任意一天現(xiàn)金需求量的模型。這些模型考慮了歷史天氣預(yù)報(bào)數(shù)據(jù)和重要事件安排,也用到了很多高級(jí)算法如波爾茲曼機(jī)、感知機(jī)和高斯判別分析等。
5.昂貴銀行渠道使用的最小化
在昂貴的銀行渠道比如柜臺(tái)服務(wù)或光顧支行或電話客服的使用率最小化上我們做出了巨大的投入。
使用率的最小化可以由優(yōu)化網(wǎng)上銀行或手機(jī)銀行應(yīng)用、幫助頁(yè)、幫助軟件以及優(yōu)化網(wǎng)站界面實(shí)現(xiàn)。另一個(gè)方法鼓勵(lì)正在猶豫的客人轉(zhuǎn)而使用更便宜的方式是目標(biāo)更加明確的推廣活動(dòng)。
可分析數(shù)據(jù)最主要的來(lái)源是來(lái)源于網(wǎng)上銀行以及手機(jī)銀行應(yīng)用的網(wǎng)頁(yè)記錄。我們?cè)眠^(guò)帶銀行賬號(hào)的使用記錄,客服中心交易記錄數(shù)據(jù)組,用戶信息的CRM數(shù)據(jù)組,或分行交易記錄的數(shù)據(jù)組。
另一個(gè)重要的數(shù)據(jù)組是客服中心、支行的投訴以及咨詢的來(lái)電、郵件、來(lái)信。我們將數(shù)據(jù)以網(wǎng)絡(luò)幫助頁(yè)的咨詢點(diǎn)的相關(guān)興趣點(diǎn)分類。這能幫助找出解釋不清晰、造成誤解的以及不必要咨詢電話的幫助頁(yè)面。這還能幫助管理網(wǎng)上銀行那些復(fù)雜的造成投訴的操作。它發(fā)現(xiàn)了許多領(lǐng)域比如關(guān)于幫助頁(yè)面沒(méi)有涵蓋的信用卡支付匯率,這反而常常在電話或分行咨詢中常常被提到。網(wǎng)上銀行的產(chǎn)品據(jù)此修改,提供自助咨詢、搜索優(yōu)化、網(wǎng)上銀行管理、以及手機(jī)銀行應(yīng)用等服務(wù),以減少客服中心以及分行的使用率。
我們分析了以轉(zhuǎn)化客戶到網(wǎng)上銀行、手機(jī)銀行以及自助柜員機(jī)的市場(chǎng)營(yíng)銷活動(dòng)的結(jié)果數(shù)據(jù)。根據(jù)相關(guān)性分析,許多大范圍的營(yíng)銷活動(dòng)并不十分有效。我們也分析了最近將大部分業(yè)務(wù)轉(zhuǎn)移到網(wǎng)上的銀行客戶的規(guī)律。這幫助我們找出更有可能轉(zhuǎn)移到網(wǎng)上的客戶。對(duì)這些客戶我們應(yīng)該使用更有針對(duì)性的個(gè)性化的營(yíng)銷策略,根據(jù)各個(gè)分行的特點(diǎn)進(jìn)行活動(dòng)。
6.評(píng)估債務(wù)產(chǎn)品的客戶
為了可靠地評(píng)估風(fēng)險(xiǎn),對(duì)現(xiàn)有客戶批準(zhǔn)借記產(chǎn)品,不僅需要考慮現(xiàn)有的信用狀況、可支配收入狀況,還需要客戶的全部歷史和社交記錄。這樣以減少銀行承擔(dān)的風(fēng)險(xiǎn)并增加來(lái)自有價(jià)值客戶的收入。
我們使用通用收入支出數(shù)據(jù)庫(kù)分析,客戶全部的信用卡、借貸、透支或其他金融產(chǎn)品的交易記錄以及CRM信息。使用Markov?Chain隨機(jī)分析評(píng)估與客戶行為相關(guān)的借貸支付可能。此類模型在盈利性借貸、信用卡以及其他金融產(chǎn)品的歷史數(shù)據(jù)中得到驗(yàn)證。我們注意到信用記錄的可靠性得到增加,并能夠據(jù)此為被拒絕的客戶提供替代產(chǎn)品。
??????????????????????????????????????素材來(lái)源|?http://syoncloud.com/
??????????????????????譯文來(lái)源|?大數(shù)據(jù)文摘??翻譯|?Keno?Hoo,Fay,朱瀟然