數(shù)據(jù)挖掘是利用業(yè)務(wù)知識從數(shù)據(jù)中發(fā)現(xiàn)和解釋知識(或稱為模式)的過程,這種知識是以自然或者人工形式創(chuàng)造的新知識。
當前的數(shù)據(jù)挖掘形式,是在20世紀90年代實踐領(lǐng)域誕生的,是在集成數(shù)據(jù)挖掘算法平臺發(fā)展的支撐下適合商業(yè)分析的一種形式。也許是因為數(shù)據(jù)挖掘源于實踐而非理論,在其過程的理解上不太引人注意。20世紀90年代晚期發(fā)展的CRISP-DM,逐漸成為數(shù)據(jù)挖掘過程的一種標準化過程,被越來越多的數(shù)據(jù)挖掘?qū)嵺`者成功運用和遵循。
雖然CRISP-DM能夠指導如何實施數(shù)據(jù)挖掘,但是它不能解釋數(shù)據(jù)挖掘是什么或者為什么適合這樣做。在本文中我將闡述我提出數(shù)據(jù)挖掘的九種準則或“定律”(其中大多數(shù)為實踐者所熟知)以及另外其它一些熟知的解釋。開始從理論上(不僅僅是描述上)來解釋數(shù)據(jù)挖掘過程。
我的目的不是評論CRISP-DM,但CRISP-DM的許多概念對于理解數(shù)據(jù)挖掘是至關(guān)重要的,本文也將依賴于CRISP-DM的常見術(shù)語。CRISP-DM僅僅是論述這個過程的開始。
1.?目標律:業(yè)務(wù)目標是所有數(shù)據(jù)解決方案的源頭。
它定義了數(shù)據(jù)挖掘的主題:數(shù)據(jù)挖掘關(guān)注解決業(yè)務(wù)業(yè)問題和實現(xiàn)業(yè)務(wù)目標。數(shù)據(jù)挖掘主要不是一種技術(shù),而是一個過程,業(yè)務(wù)目標是它的的核心。沒有業(yè)務(wù)目標,沒有數(shù)據(jù)挖掘(不管這種表述是否清楚)。因此這個準則也可以說成:數(shù)據(jù)挖掘是業(yè)務(wù)過程。
2.?知識律:業(yè)務(wù)知識是數(shù)據(jù)挖掘過程每一步的核心。
這里定義了數(shù)據(jù)挖掘過程的一個關(guān)鍵特征。CRISP-DM的一種樸素的解讀是業(yè)務(wù)知識僅僅作用于數(shù)據(jù)挖掘過程開始的目標的定義與最后的結(jié)果的實施,這將錯過數(shù)據(jù)挖掘過程的一個關(guān)鍵屬性,即業(yè)務(wù)知識是每一步的核心。
為了方便理解,我使用CRISP-DM階段來說明:
商業(yè)理解必須基于業(yè)務(wù)知識,所以數(shù)據(jù)挖掘目標必須是業(yè)務(wù)目標的映射(這種映射也基于數(shù)據(jù)知識和數(shù)據(jù)挖掘知識);
數(shù)據(jù)理解使用業(yè)務(wù)知識理解與業(yè)務(wù)問題相關(guān)的數(shù)據(jù),以及它們是如何相關(guān)的;
數(shù)據(jù)預處理就是利用業(yè)務(wù)知識來塑造數(shù)據(jù),使得業(yè)務(wù)問題可以被提出和解答(更詳盡的第三條—準備律);
建模是使用數(shù)據(jù)挖掘算法創(chuàng)建預測模型,同時解釋模型和業(yè)務(wù)目標的特點,也就是說理解它們之間的業(yè)務(wù)相關(guān)性;
評估是模型對理解業(yè)務(wù)的影響;
實施是將數(shù)據(jù)挖掘結(jié)果作用于業(yè)務(wù)過程;
總之,沒有業(yè)務(wù)知識,數(shù)據(jù)挖掘過程的每一步都是無效的,也沒有“純粹的技術(shù)”步驟。業(yè)務(wù)知識指導過程產(chǎn)生有益的結(jié)果,并使得那些有益的結(jié)果得到認可。數(shù)據(jù)挖掘是一個反復的過程,業(yè)務(wù)知識是它的核心,驅(qū)動著結(jié)果的持續(xù)改善。
這背后的原因可以用“鴻溝的表現(xiàn)”(chasmofrepresentation)來解釋(AlanMontgomery在20世紀90年代對數(shù)據(jù)挖掘提出的一個觀點)。Montgomery指出數(shù)據(jù)挖掘目標涉及到現(xiàn)實的業(yè)務(wù),然而數(shù)據(jù)僅能表示現(xiàn)實的一部分;數(shù)據(jù)和現(xiàn)實世界是有差距(或“鴻溝”)的。在數(shù)據(jù)挖掘過程中,業(yè)務(wù)知識來彌補這一差距,在數(shù)據(jù)中無論發(fā)現(xiàn)什么,只有使用業(yè)務(wù)知識解釋才能顯示其重要性,數(shù)據(jù)中的任何遺漏必須通過業(yè)務(wù)知識彌補。只有業(yè)務(wù)知識才能彌補這種缺失,這是業(yè)務(wù)知識為什么是數(shù)據(jù)挖掘過程每一步驟的核心的原因。
3.?準備律:數(shù)據(jù)預處理比數(shù)據(jù)挖掘其他任何一個過程都重要。
這是數(shù)據(jù)挖掘著名的格言,數(shù)據(jù)挖掘項目中最費力的事是數(shù)據(jù)獲取和預處理。非正式估計,其占用項目的時間為50%-80%。最簡單的解釋可以概括為“數(shù)據(jù)是困難的”,經(jīng)常采用自動化減輕這個“問題”的數(shù)據(jù)獲取、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)預處理各部分的工作量。雖然自動化技術(shù)是有益的,支持者相信這項技術(shù)可以減少數(shù)據(jù)預處理過程中的大量的工作量,但這也是誤解數(shù)據(jù)預處理在數(shù)據(jù)挖掘過程中是必須的原因。
數(shù)據(jù)預處理的目的是把數(shù)據(jù)挖掘問題轉(zhuǎn)化為格式化的數(shù)據(jù),使得分析技術(shù)(如數(shù)據(jù)挖掘算法)更容易利用它。數(shù)據(jù)任何形式的變化(包括清理、最大最小值轉(zhuǎn)換、增長等)意味著問題空間的變化,因此這種分析必須是探索性的。這是數(shù)據(jù)預處理重要的原因,并且在數(shù)據(jù)挖掘過程中占有如此大的工作量,這樣數(shù)據(jù)挖掘者可以從容地操縱問題空間,使得容易找到適合分析他們的方法。
有兩種方法“塑造”這個問題空間。第一種方法是將數(shù)據(jù)轉(zhuǎn)化為可以分析的完全格式化的數(shù)據(jù),比如,大多數(shù)數(shù)據(jù)挖掘算法需要單一表格形式的數(shù)據(jù),一個記錄就是一個樣例。數(shù)據(jù)挖掘者都知道什么樣的算法需要什么樣的數(shù)據(jù)形式,因此可以將數(shù)據(jù)轉(zhuǎn)化為一個合適的格式。第二種方法是使得數(shù)據(jù)能夠含有業(yè)務(wù)問題的更多的信息,例如,某些領(lǐng)域的一些數(shù)據(jù)挖掘問題,數(shù)據(jù)挖掘者可以通過業(yè)務(wù)知識和數(shù)據(jù)知識知道這些。通過這些領(lǐng)域的知識,數(shù)據(jù)挖掘者通過操縱問題空間可能更容易找到一個合適的技術(shù)解決方案。
因此,通過業(yè)務(wù)知識、數(shù)據(jù)知識、數(shù)據(jù)挖掘知識從根本上使得數(shù)據(jù)預處理更加得心應(yīng)手。數(shù)據(jù)預處理的這些方面并不能通過簡單的自動化實現(xiàn)。
這個定律也解釋了一個有疑義的現(xiàn)象,也就是雖然經(jīng)過數(shù)據(jù)獲取、清理、融合等方式創(chuàng)建一個數(shù)據(jù)倉庫,但是數(shù)據(jù)預處理仍然是必不可少的,仍然占有數(shù)據(jù)挖掘過程一半以上的工作量。此外,就像CRISP-DM展示的那樣,即使經(jīng)過了主要的數(shù)據(jù)預處理階段,在創(chuàng)建一個有用的模型的反復過程中,進一步的數(shù)據(jù)預處理的必要的。
4.?試驗律(NFL律:NoFreeLunch)
對于數(shù)據(jù)挖掘者來說,天下沒有免費的午餐,一個正確的模型只有通過試驗(experiment)才能被發(fā)現(xiàn)。
機器學習有一個原則:如果我們充分了解一個問題空間(problemspace),我們可以選擇或設(shè)計一個找到最優(yōu)方案的最有效的算法。一個卓越算法的參數(shù)依賴于數(shù)據(jù)挖掘問題空間一組特定的屬性集,這些屬性可以通過分析發(fā)現(xiàn)或者算法創(chuàng)建。但是,這種觀點來自于一個錯誤的思想,在數(shù)據(jù)挖掘過程中數(shù)據(jù)挖掘者將問題公式化,然后利用算法找到解決方法。事實上,數(shù)據(jù)挖掘者將問題公式化和尋找解決方法是同時進行的—–算法僅僅是幫助數(shù)據(jù)挖掘者的一個工具。
有五種因素說明試驗對于尋找數(shù)據(jù)挖掘解決方案是必要的:
數(shù)據(jù)挖掘項目的業(yè)務(wù)目標定義了興趣范圍(定義域),數(shù)據(jù)挖掘目標反映了這一點;
與業(yè)務(wù)目標相關(guān)的數(shù)據(jù)及其相應(yīng)的數(shù)據(jù)挖掘目標是在這個定義域上的數(shù)據(jù)挖掘過程產(chǎn)生的;
這些過程受規(guī)則限制,而這些過程產(chǎn)生的數(shù)據(jù)反映了這些規(guī)則;
在這些過程中,數(shù)據(jù)挖掘的目的是通過模式發(fā)現(xiàn)技術(shù)(數(shù)據(jù)挖掘算法)和可以解釋這個算法結(jié)果的業(yè)務(wù)知識相結(jié)合的方法來揭示這個定義域上的規(guī)則;
數(shù)據(jù)挖掘需要在這個域上生成相關(guān)數(shù)據(jù),這些數(shù)據(jù)含有的模式不可避免地受到這些規(guī)則的限制。
在這里強調(diào)一下最后一點,在數(shù)據(jù)挖掘中改變業(yè)務(wù)目標,CRISP-DM有所暗示,但經(jīng)常不易被覺察到。廣為所知的CRISP-DM過程不是下一個步驟僅接著上一個步驟的“瀑布”式的過程。事實上,在項目中的任何地方都可以進行任何CRISP-DM步驟,同樣商業(yè)理解也可以存在于任何一個步驟。業(yè)務(wù)目標不是簡單地在開始就給定,它貫穿于整個過程。這也許可以解釋一些數(shù)據(jù)挖掘者在沒有清晰的業(yè)務(wù)目標的情況下開始項目,他們知道業(yè)務(wù)目標也是數(shù)據(jù)挖掘的一個結(jié)果,不是靜態(tài)地給定。
Wolpert的“沒有免費的午餐”理論已經(jīng)應(yīng)用于機器學習領(lǐng)域,無偏的狀態(tài)好于(如一個具體的算法)任何其他可能的問題(數(shù)據(jù)集)出現(xiàn)的平均狀態(tài)。這是因為,如果我們考慮所有可能的問題,他們的解決方法是均勻分布的,以至于一個算法(或偏倚)對一個子集是有利的,而對另一個子集是不利的。這與數(shù)據(jù)挖掘者所知的具有驚人的相似性,沒有一個算法適合每一個問題。但是經(jīng)過數(shù)據(jù)挖掘處理的問題或數(shù)據(jù)集絕不是隨機的,也不是所有可能問題的均勻分布,他們代表的是一個有偏差的樣本,那么為什么要應(yīng)用NFL的結(jié)論?答案涉及到上面提到的因素:問題空間初始是未知的,多重問題空間可能和每一個數(shù)據(jù)挖掘目標相關(guān),問題空間可能被數(shù)據(jù)預處理所操縱,模型不能通過技術(shù)手段評估,業(yè)務(wù)問題本身可能會變化。由于這些原因,數(shù)據(jù)挖掘問題空間在數(shù)據(jù)挖掘過程中展開,并且在這個過程中是不斷變化的,以至于在有條件的約束下,用算法模擬一個隨機選擇的數(shù)據(jù)集是有效的。對于數(shù)據(jù)挖掘者來說:沒有免費的午餐。
這大體上描述了數(shù)據(jù)挖掘過程。但是,在有條件限制某些情況下,比如業(yè)務(wù)目標是穩(wěn)定的,數(shù)據(jù)和其預處理是穩(wěn)定的,一個可接受的算法或算法組合可以解決這個問題。在這些情況下,一般的數(shù)據(jù)挖掘過程中的步驟將會減少。但是,如果這種情況穩(wěn)定是持續(xù)的,數(shù)據(jù)挖掘者的午餐是免費的,或者至少相對便宜的。像這樣的穩(wěn)定性是臨時的,因為對數(shù)據(jù)的業(yè)務(wù)理解(第二律)和對問題的理解(第九律)都會變化的。
5.?模式律(大衛(wèi)律):數(shù)據(jù)中總含有模式。
這條規(guī)律最早由DavidWatkins提出。我們可能預料到一些數(shù)據(jù)挖掘項目會失敗,因為解決業(yè)務(wù)問題的模式并不存在于數(shù)據(jù)中,但是這與數(shù)據(jù)挖掘者的實踐經(jīng)驗并不相關(guān)。
前文的闡述已經(jīng)提到,這是因為:在一個與業(yè)務(wù)相關(guān)的數(shù)據(jù)集中總會發(fā)現(xiàn)一些有趣的東西,以至于即使一些期望的模式不能被發(fā)現(xiàn),但其他的一些有用的東西可能會被發(fā)現(xiàn)(這與數(shù)據(jù)挖掘者的實踐經(jīng)驗是相關(guān)的);除非業(yè)務(wù)專家期望的模式存在,否則數(shù)據(jù)挖掘項目不會進行,這不應(yīng)感到奇怪,因為業(yè)務(wù)專家通常是對的。
然而,Watkins提出一個更簡單更直接的觀點:“數(shù)據(jù)中總含有模式。”這與數(shù)據(jù)挖掘者的經(jīng)驗比前面的闡述更一致。這個觀點后來經(jīng)過Watkins修正,基于客戶關(guān)系的數(shù)據(jù)挖掘項目,總是存在著這樣的模式即客戶未來的行為總是和先前的行為相關(guān),顯然這些模式是有利可圖的(Watkins的客戶關(guān)系管理定律)。但是,數(shù)據(jù)挖掘者的經(jīng)驗不僅僅局限于客戶關(guān)系管理問題,任何數(shù)據(jù)挖掘問題都會存在模式(Watkins的通用律)。
Watkins的通用律解釋如下:
數(shù)據(jù)挖掘項目的業(yè)務(wù)目標定義了興趣范圍(定義域),數(shù)據(jù)挖掘目標反映了這一點;
與業(yè)務(wù)目標相關(guān)的數(shù)據(jù)及其相應(yīng)的數(shù)據(jù)挖掘目標是在這個定義域上的數(shù)據(jù)挖掘過程產(chǎn)生的;
這些過程受規(guī)則限制,而這些過程產(chǎn)生的數(shù)據(jù)反映了這些規(guī)則;
在這些過程中,數(shù)據(jù)挖掘的目的是通過模式發(fā)現(xiàn)技術(shù)(數(shù)據(jù)挖掘算法)和可以解釋這個算法結(jié)果的業(yè)務(wù)知識相結(jié)合的方法來揭示這個定義域上的規(guī)則;
數(shù)據(jù)挖掘需要在這個域上生成相關(guān)數(shù)據(jù),這些數(shù)據(jù)含有的模式不可避免地受到這些規(guī)則的限制。
總結(jié)這一觀點:數(shù)據(jù)中總存在模式,因為在這過程中不可避免產(chǎn)生數(shù)據(jù)這樣的副產(chǎn)品。為了發(fā)掘模式,過程從(你已經(jīng)知道它)—–業(yè)務(wù)知識開始。
利用業(yè)務(wù)知識發(fā)現(xiàn)模式也是一個反復的過程;這些模式也對業(yè)務(wù)知識有貢獻,同時業(yè)務(wù)知識是解釋模式的主要因素。在這種反復的過程中,數(shù)據(jù)挖掘算法簡單地連接了業(yè)務(wù)知識和隱藏的模式。
如果這個解釋是正確的,那么大衛(wèi)律是完全通用的。除非沒有相關(guān)的數(shù)據(jù)的保證,否則在每個定義域的每一個數(shù)據(jù)挖掘問題總是存在模式的。
6.?洞察律:數(shù)據(jù)挖掘增大對業(yè)務(wù)的認知。
數(shù)據(jù)挖掘是如何產(chǎn)生洞察力的?這個定律接近了數(shù)據(jù)挖掘的核心:為什么數(shù)據(jù)挖掘必須是一個業(yè)務(wù)過程而不是一個技術(shù)過程。業(yè)務(wù)問題是由人而非算法解決的。數(shù)據(jù)挖掘者和業(yè)務(wù)專家從問題中找到解決方案,即從問題的定義域上達到業(yè)務(wù)目標需要的模式。數(shù)據(jù)挖掘完全或部分有助于這個認知過程。數(shù)據(jù)挖掘算法揭示的模式通常不是人類以正常的方式所能認識到的。綜合這些算法和人類正常的感知的數(shù)據(jù)挖掘過程在本質(zhì)上是敏捷的。在數(shù)據(jù)挖掘過程中,問題解決者解釋數(shù)據(jù)挖掘算法產(chǎn)生的結(jié)果,并統(tǒng)一到業(yè)務(wù)理解上,因此這是一個業(yè)務(wù)過程。
這類似于“智能放大器”的概念,在早期的人工智能的領(lǐng)域,AI的第一個實際成果不是智能機器,而是被稱為“智能放大器”的工具,它能夠協(xié)助人類使用者提高獲取有效信息的能力。數(shù)據(jù)挖掘提供一個類似的“智能放大器”,幫助業(yè)務(wù)專家解決他們不能單獨完成的業(yè)務(wù)問題。
總之,數(shù)據(jù)挖掘算法提供一種超越人類以正常方式探索模式的能力,數(shù)據(jù)挖掘過程允許數(shù)據(jù)挖掘者和業(yè)務(wù)專家將這種能力融合在他們的各自的問題的中和業(yè)務(wù)過程中。
7.?預測律:預測提高了信息泛化能力。
“預測”已經(jīng)成為數(shù)據(jù)挖掘模型可以做什么的可接受的描述,即我們常說的“預測模型”和“預測分析”。這是因為許多流行的數(shù)據(jù)挖掘模型經(jīng)常使用“預測最可能的結(jié)果”(或者解釋可能的結(jié)果如何有可能)。這種方法是分類和回歸模型的典型應(yīng)用。
但是,其他類型的數(shù)據(jù)挖掘模型,比如聚類和關(guān)聯(lián)模型也有“預測”的特征。這是一個含義比較模糊的術(shù)語。一個聚類模型被描述為“預測”一個個體屬于哪個群體,一個關(guān)聯(lián)模型可能被描述為基于已知基本屬性“預測”一個或更多屬性。
同樣我們也可以分析“預測”這個術(shù)語在不同的主題中的應(yīng)用:一個分類模型可能被說成可以預測客戶行為—–更加確切的說它可以預測以某種確定行為的目標客戶,即使不是所有的目標個體的行為都符合“預測”的結(jié)果。一個詐騙檢測模型可能被說成可以預測個別交易是否具有高風險性,即使不是所有的預測的交易都有欺詐行為。
“預測”這個術(shù)語廣泛的使用導致了所謂的“預測分析”被作為數(shù)據(jù)挖掘的總稱,并且在業(yè)務(wù)解決方案中得到了廣泛的應(yīng)用。但是我們應(yīng)該意識到這不是日常所說的“預測”,我們不能期望預測一個特殊個體的行為或者一個特別的欺詐調(diào)查結(jié)果。
那么,在這個意義下的“預測”是什么?分類、回歸、聚類和關(guān)聯(lián)算法以及他們集成模型有什么共性呢?答案在于“評分”,這是預測模型應(yīng)用到一個新樣例的方式。模型產(chǎn)生一個預估值或評分,這是這個樣例的新信息的一部分;在概括和歸納的基礎(chǔ)上,這個樣例的可利用信息得到了提高,模式被算法發(fā)現(xiàn)和模型具體化。值得注意的是這個新信息不是在“給定”意義上的“數(shù)據(jù)”,它僅有統(tǒng)計學意義。
8.?價值律
數(shù)據(jù)挖掘的結(jié)果的價值不取決于模型的穩(wěn)定性或預測的準確性。
準確性和穩(wěn)定性是預測模型常用的兩個度量。準確性是指正確的預測結(jié)果所占的比例;穩(wěn)定性是指當創(chuàng)建模型的數(shù)據(jù)改變時,用于同一口徑的預測數(shù)據(jù),其預測結(jié)果變化有多大(或多小)。鑒于數(shù)據(jù)挖掘中預測概念的核心角色,一個預測模型的準確性和穩(wěn)定性常被認為決定了其結(jié)果的價值的大小,實際上并非如此。
體現(xiàn)預測模型價值的有兩種方式:一種是用模型的預測結(jié)果來改善或影響行為,另一種是模型能夠傳遞導致改變策略的見解(或新知識)。
對于后者,傳遞出的任何新知識的價值和準確性的聯(lián)系并不那么緊密;一些模型的預測能力可能有必要使我們相信發(fā)現(xiàn)的模式是真實的。然而,一個難以理解的復雜的或者完全不透明的模型的預測結(jié)果具有高準確性,但傳遞的知識也不是那么有見地;然而,一個簡單的低準確度的模型可能傳遞出更有用的見解。
準確性和價值之間的分離在改善行為的情況下并不明顯,然而一個突出問題是“預測模型是為了正確的事,還是為了正確的原因?”換句話說,一個模型的價值和它的預測準確度一樣,都源自它的業(yè)務(wù)問題。例如,客戶流失模型可能需要高的預測準確度,否則對于業(yè)務(wù)上的指導不會那么有效。相反的是一個準確度高的客戶流失模型可能提供有效的指導,保留住老客戶,但也僅僅是最少利潤客戶群體的一部分。如果不適合業(yè)務(wù)問題,高準確度并不能提高模型的價值。
模型穩(wěn)定性同樣如此,雖然穩(wěn)定性是預測模型的有趣的度量,穩(wěn)定性不能代替模型提供業(yè)務(wù)理解的能力或解決業(yè)務(wù)問題,其它技術(shù)手段也是如此。
總之,預測模型的價值不是由技術(shù)指標決定的。數(shù)據(jù)挖掘者應(yīng)該在模型不損害業(yè)務(wù)理解和適應(yīng)業(yè)務(wù)問題的情況下關(guān)注預測準確度、模型穩(wěn)定性以及其它的技術(shù)度量。
9.?變化律:所有的模式因業(yè)務(wù)變化而變化。
數(shù)據(jù)挖掘發(fā)現(xiàn)的模式不是永遠不變的。數(shù)據(jù)挖掘的許多應(yīng)用是眾所周知的,但是這個性質(zhì)的普遍性沒有得到廣泛的重視。
數(shù)據(jù)挖掘在市場營銷和CRM方面的應(yīng)用很容易理解,客戶行為模式隨著時間的變化而變化。行為的變化、市場的變化、競爭的變化以及整個經(jīng)濟形勢的變化,預測模型會因這些變化而過時,當他們不能準確預測時,應(yīng)當定期更新。
數(shù)據(jù)挖掘在欺詐模型和風險模型的應(yīng)用中同樣如此,隨著環(huán)境的變化欺詐行為也在變化,因為罪犯要改變行為以保持領(lǐng)先于反欺詐。欺詐檢測的應(yīng)用必須設(shè)計為就像處理舊的、熟悉的欺詐行為一樣能夠處理新的、未知類型的欺詐行為。
某些種類的數(shù)據(jù)挖掘可能被認為發(fā)現(xiàn)的模式不會隨時間而變化,比如數(shù)據(jù)挖掘在科學上的應(yīng)用,我們有沒有發(fā)現(xiàn)不變的普遍的規(guī)律?也許令人驚奇的是,答案是即使是這些模式也期望得到改變。理由是這些模式并不是簡單的存在于這個世界上的規(guī)則,而是數(shù)據(jù)的反應(yīng)—–這些規(guī)則可能在某些領(lǐng)域確實是靜態(tài)的。
然而,數(shù)據(jù)挖掘發(fā)現(xiàn)的模式是認知過程的一部分,是數(shù)據(jù)挖掘在數(shù)據(jù)描述的世界與觀測者或業(yè)務(wù)專家的認知之間建立的一個動態(tài)過程。因為我們的認知在持續(xù)發(fā)展和增長,所以我們也期望模式也會變化。明天的數(shù)據(jù)表面上看起來相似,但是它可能已經(jīng)集合了不同的模式、(可能巧妙地)不同的目的、不同的語義;分析過程因受業(yè)務(wù)知識驅(qū)動,所以會隨著業(yè)務(wù)知識的變化而變化。基于這些原因,模式會有所不同。
總之,所有的模式都會變化,因為他們不僅反映了一個變化的世界,也反映了我們變化的認知。
后記:
這九條定律是關(guān)于數(shù)據(jù)挖掘的簡單的真知。這九條定律的大部分已為數(shù)據(jù)挖掘者熟知,但仍有一些不熟悉(例如,第五、第六、第七)。大多數(shù)新觀點的解釋都和這九條定律有關(guān),它試圖解釋眾所周知的數(shù)據(jù)挖掘過程中的背后的原因。
我們?yōu)槭裁春伪卦谝鈹?shù)據(jù)挖掘過程所采用的形式呢?除了知識和理解這些簡單的訴求,有實實在在的理由去探討這些問題。
數(shù)據(jù)挖掘過程以現(xiàn)在的形式存在是因為技術(shù)的發(fā)展—–機器學習算法的普及以及綜合其它技術(shù)集成這些算法的平臺的發(fā)展,使得商業(yè)用戶易于接受。我們是否應(yīng)該期望因技術(shù)的改變而改變數(shù)據(jù)挖掘過程?最終它會改變,但是如果我們理解數(shù)據(jù)挖掘過程形成的原因,然后我們可以辨別技術(shù)可以改變的和不能改變的。
一些技術(shù)的發(fā)展在預測分析領(lǐng)域具有革命性的作用,例如數(shù)據(jù)預處理的自動化、模型的重建以及在部署的框架里通過預測模型集成業(yè)務(wù)規(guī)則。數(shù)據(jù)挖掘的九條定律及其解釋說明:技術(shù)的發(fā)展不會改變數(shù)據(jù)挖掘過程的本質(zhì)。這九條定律以及這些思想的進一步發(fā)展,除了有對數(shù)據(jù)挖掘者的教育價值之外,應(yīng)該被用來判別未來任何數(shù)據(jù)挖掘過程革命性變化的訴求。(網(wǎng)絡(luò)分享)
]]>
隨著內(nèi)容營銷市場份額的持續(xù)擴大,我們聽到了很多關(guān)于內(nèi)容營銷的話題,說內(nèi)容營銷與傳統(tǒng)廣告多么不同。隨著這些年廣告的發(fā)展,企業(yè)和品牌依舊面臨著“如何接觸到目標客戶”的困擾。消費者知道他們每天都被各種傳統(tǒng)廣告包圍著,這些廣告有些會被客戶關(guān)注,有些則被忽視。在廣告的發(fā)展歷史中,沒有消費者打開他們的數(shù)字設(shè)備是為了尋找廣告,通過廣告來接觸一個品牌的。他們所尋找的,永遠是精彩的內(nèi)容。這就是內(nèi)容營銷的核心;企業(yè)和品牌可以在目標消費者已經(jīng)習慣接觸的內(nèi)容中與消費者溝通。
這里有一個案例可以說明內(nèi)容營銷與傳統(tǒng)廣告的不同,盡管,通常來說,在廣告及時性上來說,內(nèi)容營銷的廣告要遠遠落后于傳統(tǒng)展示廣告。通過內(nèi)容營銷平臺的幫助,創(chuàng)造營銷內(nèi)容已經(jīng)不再是挑戰(zhàn)。事實上,在內(nèi)容營銷工具的幫助下我們已經(jīng)可以簡單快捷的創(chuàng)造內(nèi)容營銷的軟文,我們不再為了探尋適合消費者的營銷內(nèi)容而被壓得喘不過氣來。現(xiàn)在,我們可以很方便的區(qū)分出內(nèi)容營銷和傳統(tǒng)廣告。在傳統(tǒng)廣告的時代,在盡可能多的頁面展示盡可能多的Banner廣告似乎就是很好的方法了。(提醒:這其實不是一個好主意)
通過更多展示來促進效果的傳統(tǒng)廣告也開始意識到,要取得更好的廣告效果,并不是更多的展示廣告,而是更多能接觸到目標客戶的廣告。在當今數(shù)字生活環(huán)境中,內(nèi)容營銷者拓寬他們的思維比創(chuàng)造內(nèi)容更重要。他們需要用獨特的策略來營造易于受眾接受的氛圍,以及收集所有受眾的反應(yīng)到分析漏斗中。
總之,品牌需要采取更多的數(shù)據(jù)挖掘的方法來開展內(nèi)容營銷。內(nèi)容營銷也許看上去和數(shù)字廣告很不同,但是他的后臺卻需要像當今的智能廣告投放(programmatic?ad,也稱程序化購買,一種新興廣告技術(shù),由電腦根據(jù)大數(shù)據(jù)來智能的為客戶選擇網(wǎng)絡(luò)廣告投放)一樣,才能使品牌在數(shù)字時代取得成功。這意味著需要獲取智能廣告技術(shù)所需要的海量消費者數(shù)據(jù),從而來理解和預測消費者行為,再利用智能廣告技術(shù),就可以用更相關(guān)的、有意義的方式來瞄準目標客戶。
數(shù)據(jù)挖掘方法的使用,是更好的接觸消費者,帶動整個內(nèi)容營銷行業(yè)到達下一個時代的關(guān)鍵。我們有內(nèi)容,而且數(shù)據(jù)就在我們的指尖。那么,對于內(nèi)容營銷者來說下一步就是像顯示廣告那樣利用數(shù)據(jù)。智能廣告投放平臺快速的篩選數(shù)據(jù),深入洞察消費者行為,從而實時鎖定目標客戶。如果內(nèi)容營銷者能夠充分利用智能廣告投放平臺,那么其精準營銷的能力和實時傳遞內(nèi)容的能力都將得到很大提升。這樣就能確保目標客戶,在正確的時間,正確的地點看到和他們最相關(guān)、最有趣和最具沖擊力的營銷內(nèi)容。數(shù)字廣告界熟知這種方式,也從中獲取了大量回報。現(xiàn)在,想想智能廣告投放技術(shù)所能達到的效率,你就會感到興奮。
智能廣告投放技術(shù),應(yīng)用好時,能夠提供有效的解決方案,幫助營銷者在顧客購買過程中的每一步提供給消費者相關(guān)和有用的信息。這種技術(shù)在內(nèi)容營銷中是非常有價值的。這同時需要智能廣告投放平臺自身也更完善,從而更好的利用數(shù)據(jù)在任何給定的時間鎖定客戶的位置。內(nèi)容營銷者通常從客戶是否第一次瀏覽軟文,是否表現(xiàn)出對品牌的興趣,是否最近購買過商品來發(fā)現(xiàn)用戶需求。現(xiàn)在,打破內(nèi)容營銷者這種靜態(tài)的思維方式至關(guān)重要,不是從內(nèi)容營銷者的既有角度出發(fā),而是從顧客的角度出發(fā),通過顧客的全方位數(shù)據(jù)分析,去發(fā)現(xiàn)顧客需求和顧客感興趣的內(nèi)容。
內(nèi)容營銷從數(shù)字廣告中學習如何利用智能廣告投放技術(shù)是一件事,內(nèi)容營銷的內(nèi)容到底如何呈現(xiàn)則是另外一件事。智能廣告投放技術(shù)能夠有效幫助數(shù)字廣告發(fā)現(xiàn)展示地點是因為網(wǎng)絡(luò)上存在大量可利用的廣告位置。對于定制的營銷內(nèi)容,每一條我們都想盡辦法使其與消費者相關(guān),對消費者有用,如何能讓內(nèi)容更有影響力,然后我們還要思考用何種技術(shù)方案才能讓智能廣告投放技術(shù)將營銷內(nèi)容有效投遞。
為了內(nèi)容營銷的成功與繁榮,我們需要翻越內(nèi)容營銷的高山,以及使用數(shù)據(jù)挖掘技術(shù)更好的傳遞內(nèi)容到那些希望看到該內(nèi)容的用戶,而且還要在正確的時間傳遞給他們。為了使之發(fā)生,我們必須利用智能廣告投放技術(shù)。
作者:OneSpot首席執(zhí)行官?Steve?Sachs
譯者:?William?梁璞
]]>一、銀行中數(shù)據(jù)挖掘包含哪些類型?
客戶智能(CI)是商業(yè)銀行數(shù)據(jù)挖掘常常會提到的一個概念。
一般來說,商業(yè)銀行里面的數(shù)據(jù)挖掘主要包括三大類。即客戶智能(CI,Customer?Intelligence)、風險智能(RI,Risk?Intelligence)、運營智能(OI,Operational?Intelligence)。三者各自分工和定位并不太相同。
(一)客戶智能
客戶智能更多定位于前臺的客戶關(guān)系管理。例如,客戶畫像、客戶細分、客戶提升、客戶流失、客戶響應(yīng)、客戶推薦、客戶關(guān)系網(wǎng)絡(luò)等。
(二)運營智能
運營智能比較側(cè)重后臺管理。例如,業(yè)務(wù)流程優(yōu)化、IT效率提升、最優(yōu)的線性規(guī)劃、運營過程中異常識別和監(jiān)控、戰(zhàn)略和績效管理、現(xiàn)金管理和優(yōu)化、人力資源管理建模等。
(三)風險智能
銀行本身就是經(jīng)營風險的,因此風險智能一直都是最為核心和關(guān)鍵的。常見的風險智能模型主要是ABC評分卡(例如信用評分、行為評分、催收評分模型)、反欺詐模型、操作風險、市場風險等。
因為工作的關(guān)系,平時接觸較多的都是客戶相關(guān)的分析和建模。這篇文章,想大概地勾勒一下客戶智能的范圍、框架和研究內(nèi)容。
二、客戶智能的本質(zhì)是什么?
什么是“客戶智能”?一般來說,客戶智能包含兩個元素,即顧客關(guān)系管理(CRM)、數(shù)據(jù)挖掘(DM)。
本質(zhì)上,客戶智能,就是以客戶為中心,基于數(shù)據(jù)挖掘技術(shù)的客戶關(guān)系管理。換言之,就是把數(shù)據(jù)挖掘技術(shù)應(yīng)用到傳統(tǒng)的客戶關(guān)系管理領(lǐng)域,借助于統(tǒng)計和機器學習的技術(shù),對客戶進行精細化管理。
三、客戶智能包括哪些模塊和內(nèi)容?
依經(jīng)驗,一般來說,客戶智能可以包括以下模塊。例如客戶畫像、客戶細分、客戶提升、客戶流失、客戶響應(yīng)、推薦引擎、客戶價值、客戶生命周期、客戶關(guān)系網(wǎng)絡(luò)、客戶行為軌跡、客戶情緒、事件營銷等。
(一)客戶畫像
很多對數(shù)據(jù)挖掘接觸比較少的人一提到“客戶畫像”這個名詞,就特別容易激動和興奮。
但是,說的樸實些,客戶畫像就是一個有關(guān)客戶各種屬性、特征、標簽的大寬表而已,多則上千個字段,是搭建任何分析模型的基礎(chǔ)。還是需要保持冷靜,保持冷靜。
一般來說,客戶畫像可能會包含這樣一些字段。例如,人口統(tǒng)計特征、資產(chǎn)相關(guān)特征(不同類型金融資產(chǎn)的余額、資產(chǎn)偏好、持有量、持有時間等)、負債相關(guān)特征(貸款類型、頻次、時長、擔保等)、結(jié)算相關(guān)特征(不同交易渠道的流水量、頻次、占比、偏好等)、社交特征(人脈圖譜、關(guān)系網(wǎng)絡(luò)等)、行為軌跡特征(基于地理位置識別客戶的生活圈、工作圈、消費圈、活動圈)等。
(二)客戶細分
客戶細分屬于一種探索性建模。通過聚類算法,基于業(yè)務(wù)關(guān)心的特征和變量,把所有客戶進行劃分。例如,渠道偏好型客戶、資產(chǎn)偏好型客戶、社交型客戶、高價值型客戶、活躍創(chuàng)新型客戶、穩(wěn)定成長型客戶等。
進一步地,基于客戶細分,一方面勾勒不同群體的特征,另一方面,指定針對不同群體的開發(fā)特定的營銷策略和產(chǎn)品包。
(三)客戶提升
提升模型主要針對存量客戶。例如,提升現(xiàn)有客戶的金融資產(chǎn)、產(chǎn)品交叉持有數(shù)等。通過模型尋找到提升概率最大的存量客戶。
(四)客戶流失
既有存量客戶的降級或資產(chǎn)流失等。例如無貸戶金融資產(chǎn)等級的下降,有貸戶貸款到期后的休眠。通過模型預測客戶流失的概率,從而提前進行干預。
(五)客戶響應(yīng)
通過模型計算客戶對特定產(chǎn)品的響應(yīng)情況。例如客戶是否會對理財產(chǎn)品感興趣,是否會產(chǎn)生購買意向。
(六)客戶產(chǎn)品推薦引擎
NBO,Next?Best?Offer,即應(yīng)該給客戶推薦的下一個產(chǎn)品是什么。如果隨機給客戶推薦三款產(chǎn)品,應(yīng)該推薦哪三款?
典型的推薦算法包括三類,即社會化推薦(social?recommendation)、基于內(nèi)容的推薦(content-based?filtering)、基于協(xié)同過濾的推薦(collaborative?filtering)。以推薦電影為例。
具體而言,社會化推薦,即找?guī)讉€經(jīng)常看電影的朋友,問他們有沒有什么電影推薦。即讓好友給自己推薦產(chǎn)品。
基于內(nèi)容的推薦。通過分析用戶曾經(jīng)看過的電影,找出用戶喜歡的演員和導演,讓后推薦這些演員和導演的其他電影。
基于協(xié)同過濾的推薦。搭建產(chǎn)品相似性矩陣、用戶相似性矩陣,基于相似性進行產(chǎn)品的推薦。
(七)客戶價值和分層
以業(yè)務(wù)需求為出發(fā)點,建立基于一定邏輯的、全面綜合的客戶價值衡量指標體系。可能會包括以下一些維度,例如經(jīng)濟價值、成長價值、潛力價值、風險價值、忠誠價值、網(wǎng)絡(luò)價值、活躍價值、創(chuàng)新價值、穩(wěn)定價值等。
(八)客戶關(guān)系網(wǎng)絡(luò)
構(gòu)建客戶的關(guān)系網(wǎng)絡(luò)圈。例如,客戶交易圈(資金往來關(guān)系)、擔保圈(交叉擔保關(guān)系)、股東圈(小微工商信息)、商圈、同事圈、供應(yīng)鏈圈、家族圈等。
基于關(guān)系網(wǎng)絡(luò),一方面識別核心關(guān)鍵客戶,基于核心客戶進行產(chǎn)品的擴散。另一方面,判斷客戶風險,防范風險在圈子內(nèi)擴散。此外,還可以基于圈子識別潛在營銷機會,向圈子向客戶進行產(chǎn)品推薦、以及基于圈子進行客戶管理。
(九)客戶行為軌跡
基于地址信息,例如POS刷卡地址、ATM取款地址、支行交互地址、手機銀行移動地址,刻畫和勾勒客戶的行為軌跡。
基于客戶行為軌跡,可以了解客戶的生活圈、工作圈、消費圈、社交圈等信息。在此基礎(chǔ)上,一方面,建立客戶的標簽體系(興趣、消費容量、品牌偏好等)。另外一方面,識別潛在高價值客戶。
(十)客戶情緒和文本分析
客戶的情緒更多的來自文本分析和自然語言處理技術(shù),通過分析詞性,來判斷客戶的情感偏向。
很多創(chuàng)業(yè)型公司都是通過爬蟲抓取互聯(lián)網(wǎng)數(shù)據(jù),進行分析和挖掘。例如,通過爬取微博文本,判斷用戶對金融產(chǎn)品的需求。例如,通過抓取全國法院的判決文書,判斷企業(yè)是否涉訴、是否存在法律風險、涉案金額多寡,是否屬于黑名單等。例如,通過抓取即時通訊的聊天記錄,判斷客戶是否是“羊毛黨”。例如,通過客戶的投訴文本記錄,判斷客戶滿意度的影響要素等。
(十一)客戶事件營銷
事件營銷,更像是一個規(guī)則觸發(fā)引擎,需要建立一個規(guī)則庫。一旦用戶的某個行為觸發(fā)了某個規(guī)則,銀行系統(tǒng)就會發(fā)出標準的動作,進行客戶的提示和挽回。
常見的一些觸發(fā)規(guī)則,例如,客戶的理財產(chǎn)品到期、客戶賬戶存在大額資產(chǎn)變動、客戶異地刷卡、客戶異常時間段刷卡等。
——來源:比格堆塔??作者:周學春
]]>
一家中等規(guī)模的百貨商場,通過視頻監(jiān)控記錄下商場各個區(qū)域的客流人數(shù),從而評估每天各個時段客流的在店時長,進而結(jié)合銷售記錄數(shù)據(jù)估算出客流中帶有明確購買目標的“搜索型”顧客和無明確購買目標的“瀏覽型”顧客的比例,從而為之設(shè)計針對性的營銷手段和服務(wù)措施。
這一實踐中所涉及的數(shù)據(jù)量,從技術(shù)視角上看并不算龐大,但該商場對多源數(shù)據(jù)的整合和開發(fā),不失為基于大數(shù)據(jù)管理的一種典型體現(xiàn)。
從理論上來說,每個企業(yè)都可能擁有大數(shù)據(jù),但是并非每個企業(yè)都能夠成為大數(shù)據(jù)企業(yè)。
大數(shù)據(jù)因其體量之“大”而得名,然而體量并非大數(shù)據(jù)的唯一特征,甚至也不是大數(shù)據(jù)最為重要的特征。巨大的體量凸顯的是技術(shù)需求。而對于管理者而言,刻意追求巨大體量的數(shù)據(jù)并不具有多少現(xiàn)實意義,大數(shù)據(jù)更重要的特征在于其多樣化的來源和形態(tài)、持續(xù)快速的產(chǎn)生和演變,以及對深度分析能力的高度依賴。因此,企業(yè)對大數(shù)據(jù)的駕馭和掌控,其核心并不在于擁有多大規(guī)模的數(shù)據(jù),而在于是否能夠?qū)碜杂谄髽I(yè)內(nèi)外部多樣化信息源的涌流數(shù)據(jù)進行敏捷持續(xù)的捕捉和整合,并通過深度分析開發(fā)其商務(wù)價值。
在管理視角上,大數(shù)據(jù)既不是一種技術(shù),也不是一種應(yīng)用系統(tǒng),而更應(yīng)該是一種立足于企業(yè)內(nèi)外部數(shù)據(jù)融合以提升管理效率、開拓價值創(chuàng)造模式的管理思維。
駕馭企業(yè)內(nèi)部大數(shù)據(jù)
企業(yè)內(nèi)部數(shù)據(jù)有兩個主要維度:
一是與業(yè)務(wù)功能及流程緊密相關(guān)的數(shù)據(jù),如庫存信息、物料需求信息、生產(chǎn)計劃信息、采購信息等,可統(tǒng)稱為業(yè)務(wù)流程信息;
二是企業(yè)內(nèi)員工及各種管理系統(tǒng)在其日常工作及活動中所創(chuàng)造、記錄、交換和積累的信息,例如員工間的交流記錄、工作心得、經(jīng)驗分享、活動新聞等,可統(tǒng)稱為知識及溝通信息。
這兩個數(shù)據(jù)維度的發(fā)展和融合,催生出了企業(yè)內(nèi)部大數(shù)據(jù)。如圖1所示。
在集成化企業(yè)系統(tǒng)、內(nèi)部社交媒體以及深度數(shù)據(jù)分析技術(shù)的共同支撐下,杰克·韋爾奇所暢想的“無邊界組織”在新興環(huán)境下成為可能,并被賦予了新的內(nèi)涵。部門邊界、層級邊界被緊密的業(yè)務(wù)聯(lián)系和廣泛的社交聯(lián)系所弱化,結(jié)構(gòu)化的業(yè)務(wù)流程信息與非結(jié)構(gòu)化的知識及管理活動信息被多維度融合的深度數(shù)據(jù)分析能力連接在一起,從而使企業(yè)真正具有駕馭內(nèi)部大數(shù)據(jù)的能力。
駕馭企業(yè)外部大數(shù)據(jù)
在企業(yè)外部的視角上,數(shù)據(jù)資源也包括兩個維度:
一是與上下游交易直接相關(guān)的供應(yīng)鏈信息,如交易報價信息、訂單信息、上下游企業(yè)庫存及生產(chǎn)能力信息等;
二是市場及社會環(huán)境信息,如原材料價格走勢、市場需求及消費者偏好信息、顧客服務(wù)及滿意度信息等。
企業(yè)外部大數(shù)據(jù)的基本特征,也正是在這兩個維度的發(fā)展之中呈現(xiàn)出來的。如圖3所示。
供應(yīng)鏈信息集成與社會化商務(wù)信息的融合,構(gòu)成企業(yè)外部大數(shù)據(jù)的核心特征。來自于社交媒體信息源的市場環(huán)境信息與來自于組織間信息系統(tǒng)的供應(yīng)鏈信息相結(jié)合,借助于深度數(shù)據(jù)分析技術(shù)實現(xiàn)面向企業(yè)商務(wù)網(wǎng)絡(luò)的預測與優(yōu)化,并支撐起實時化、精確化、個性化的消費者洞察與敏捷響應(yīng),在此基礎(chǔ)上為基于網(wǎng)絡(luò)協(xié)同及社會化商務(wù)的模式創(chuàng)新提供了豐富的可能性。從而,對外部大數(shù)據(jù)的管理和駕馭,也將成為現(xiàn)代企業(yè)在網(wǎng)絡(luò)化的商務(wù)生態(tài)系統(tǒng)中占據(jù)主導地位并獲取經(jīng)營優(yōu)勢的關(guān)鍵途徑。
成為“大數(shù)據(jù)企業(yè)”
基于以上分析,企業(yè)內(nèi)部大數(shù)據(jù)的焦點,在于業(yè)務(wù)流程信息與知識及溝通信息的融合;企業(yè)外部大數(shù)據(jù)的焦點,在于供應(yīng)鏈信息與市場及社會環(huán)境信息的融合。進而,大數(shù)據(jù)時代企業(yè)組織的基本內(nèi)涵,在于內(nèi)部大數(shù)據(jù)與外部大數(shù)據(jù)的全方位融合。如圖4所示,大數(shù)據(jù)企業(yè)立足于內(nèi)外部業(yè)務(wù)與社交媒體數(shù)據(jù)的集成交匯。
在這四大類型的數(shù)據(jù)之間,致力于大數(shù)據(jù)管理的企業(yè)可以有兩種不同的發(fā)展策略。其一是以社交媒體與業(yè)務(wù)數(shù)據(jù)的融合為主導,以期通過敏捷響應(yīng)快速發(fā)現(xiàn)并應(yīng)對內(nèi)外部環(huán)境中的變化和機遇。在這種策略下,面向高速數(shù)據(jù)流的實時數(shù)據(jù)采集和分析方法,將成為大數(shù)據(jù)管理的主要支撐手段。
第二種策略是以內(nèi)外部數(shù)據(jù)融合為主導,以期通過全面匯集內(nèi)外部信息,對中長期發(fā)展趨勢作出準確的預判,從而實現(xiàn)高度優(yōu)化的業(yè)務(wù)決策,并通過對信息環(huán)境的掌控,獲取企業(yè)網(wǎng)絡(luò)生態(tài)系統(tǒng)中的領(lǐng)導地位。在這種策略下,大規(guī)模多源異構(gòu)數(shù)據(jù)的采集、清洗和整合方法,將成為大數(shù)據(jù)管理的核心支撐。
如何挖掘企業(yè)大數(shù)據(jù)的價值
企業(yè)大數(shù)據(jù)的價值開發(fā)高度依賴于深度數(shù)據(jù)分析能力。從內(nèi)外部融合的視角上看來,企業(yè)大數(shù)據(jù)分析包括三個基本維度,即內(nèi)容、關(guān)系和時空。
內(nèi)容維度指的是數(shù)據(jù)本身所承載的信息內(nèi)容。例如,G公司是一家大型電信服務(wù)商,其內(nèi)部建設(shè)實施了一套“班組博客”系統(tǒng)。在這個內(nèi)部社交媒體平臺上,公司中的3000多個工作團隊都開設(shè)了自己的博客,用于發(fā)布和交流工作經(jīng)驗、生活體驗等方面的內(nèi)容。經(jīng)過數(shù)年的發(fā)展,整個博客系統(tǒng)中積累了博文700多萬篇,評論超過1500萬條,并保持著每月15萬篇以上的博文發(fā)表數(shù)量,年閱讀量超過1000萬篇次。對于這一平臺所積累的大量數(shù)據(jù)的價值開發(fā),首先體現(xiàn)在對其信息內(nèi)容的提煉上。平臺上與工作相關(guān)的博文內(nèi)容,如客服案例、經(jīng)驗分享等,經(jīng)自動篩選分類、主題識別、關(guān)鍵詞索引之后,被構(gòu)建成企業(yè)知識庫,為業(yè)務(wù)及管理工作提供快速有效的知識支撐,同時成為員工培訓和自學的有力工具。而大量與工作無關(guān)的博文和評論內(nèi)容,包括生活常識、娛樂信息、心情表達、心靈雞湯等,在智能化的分類整理之后,也成為了該公司的一個獨特的文化情景,支撐著企業(yè)中活躍的氛圍,強化了員工的文化認同。
關(guān)系維度指的是數(shù)據(jù)及其所指代的對象之間的聯(lián)系。在G公司的班組博客中,員工的發(fā)表、閱讀、評論、回復、關(guān)注等行為詳盡地反映了其相互之間密集而持續(xù)的聯(lián)系,而這些聯(lián)系毫無遺漏地被記錄在平臺的數(shù)據(jù)庫之中。通過對這些關(guān)系結(jié)構(gòu)的深度分析和挖掘,G公司獲得了對員工及團隊的影響力、凝聚力、創(chuàng)造力的更為準確而深入的評估手段。進一步而言,博客平臺的行為記錄數(shù)據(jù)與業(yè)務(wù)系統(tǒng)中的事務(wù)處理記錄數(shù)據(jù),以及員工及團隊的績效表現(xiàn)數(shù)據(jù),也能夠被有效地關(guān)聯(lián)起來,從而使得管理者擁有強有力的工具,幫助其發(fā)現(xiàn)和理解員工的行為特質(zhì)、工作表現(xiàn)、業(yè)務(wù)能力之間的潛在關(guān)聯(lián),進而實現(xiàn)良性優(yōu)化的人員配置和人才培養(yǎng)。
時空維度指的是數(shù)據(jù)生成及傳播的位置以及數(shù)據(jù)隨時間演變的模式。對G公司而言,其數(shù)以千計的業(yè)務(wù)場所分散在眾多城市的不同地點,因此,數(shù)據(jù)中的位置信息對于虛擬化的團隊協(xié)同而言具有直接的意義。此外,位置信息也包括了數(shù)據(jù)在組織功能結(jié)構(gòu)和層級結(jié)構(gòu)中所處的位置。同時,在G公司的班組博客中,對特點話題時間演變規(guī)律的分析,也為管理者提供了有效的參考。其中對企業(yè)重要活動、運營理念相關(guān)信息在班組博客中的傳播演變模式的跟蹤,有效地揭示了員工對管理理念的認知、態(tài)度和接受過程。
更深入的價值開發(fā)來自于上述三個維度的交叉綜合。例如,內(nèi)容維度與關(guān)系維度的結(jié)合,使得G公司能夠識別員工的興趣偏好、社交特質(zhì)、工作性質(zhì)以及工作表現(xiàn)之間的匹配關(guān)系,也能夠更為準確地發(fā)現(xiàn)那些分散在不同的員工手中、但具有重要潛在影響力的經(jīng)驗、創(chuàng)意以及機遇信號。內(nèi)容維度、關(guān)系維度與時空維度的結(jié)合,使得企業(yè)能夠更為深入地理解不同的員工特質(zhì)、知識技能、團隊特性、熱點偏好在整個組織中的分布,以及這些結(jié)構(gòu)隨時間演變的過程和趨勢,從而更為有效地調(diào)度和配置這些資源。
這些維度上的分析需求,主要需要三方面的數(shù)據(jù)分析技術(shù)予以支撐。第一類是全局視圖技術(shù)。對于管理者而言,對大數(shù)據(jù)內(nèi)容全局狀況的把握,往往是開發(fā)大數(shù)據(jù)價值的一個基本需求。然而大數(shù)據(jù)的體量和結(jié)構(gòu)復雜性往往遠遠超出人類認知的信息承載能力。因此,有效的技術(shù)應(yīng)當能夠在大量數(shù)據(jù)中提取出一個足夠小的集合以呈現(xiàn)給管理者,并使得這個小集合能夠充分地代表數(shù)據(jù)全局。例如,在G公司的博客平臺上,一種“代表性博文提取”技術(shù)能夠在每天所出現(xiàn)的數(shù)以千計的博文中自動選擇出10篇。這10篇博文在很大程度上全面代表了當天所出現(xiàn)的數(shù)千篇文章,既充分反映熱點,也不能忽略冷門信號,從而使得管理者能夠通過閱讀這些文章來了解全局。第二類支撐技術(shù)是關(guān)聯(lián)發(fā)現(xiàn)技術(shù),其目標在于敏銳識別數(shù)據(jù)間的聯(lián)系。例如,當G公司試圖整合博客平臺、業(yè)務(wù)系統(tǒng)、人力資源系統(tǒng)中的數(shù)據(jù)以全方位分析員工、團隊特質(zhì)以及績效信息時,大量的數(shù)據(jù)屬性之間所構(gòu)成的復雜潛在關(guān)聯(lián)網(wǎng)絡(luò),就需要強有力的關(guān)聯(lián)發(fā)現(xiàn)技術(shù)來加以處理。第三類支撐技術(shù)是動態(tài)跟蹤技術(shù),即實時化的流數(shù)據(jù)分析處理、快速增量數(shù)據(jù)分析。三方面技術(shù)都處于快速發(fā)展之中,但尚未全面成熟,有待于學界和業(yè)界的持續(xù)努力和探索。
結(jié)束語
從一定意義上說來,業(yè)務(wù)資源集成與社交媒體相融合的過程,是一個“信息去中心化”的過程。信息資源的創(chuàng)造和管理,從以往以經(jīng)營和運作為核心的中心化模式,轉(zhuǎn)化為以分散創(chuàng)造、自由傳播、靈活匯聚為特征的眾創(chuàng)模式。另一方面,內(nèi)外部數(shù)據(jù)融合的過程,是一個“信息去邊界化”的過程。企業(yè)部門之間的信息交換、企業(yè)之間的信息交換以及企業(yè)與市場環(huán)境的信息,以日益多樣化、實時化的方式實現(xiàn)。
這樣的轉(zhuǎn)變對于企業(yè)組織及其員工而言,其影響將會是多方面的。正面的影響可能包括創(chuàng)新意識與創(chuàng)新行為的出現(xiàn)、員工能力和技能的發(fā)展、溝通滿意度的提升、員工關(guān)系資本的建立和積累、員工對組織的認同和歸屬感的增加;而負面的影響則可能包括員工注意力分散、過度爭論,以及負面情緒的傳播等。所以,建設(shè)“大數(shù)據(jù)企業(yè)”的過程,也將會是一個伴隨著困難與風險的過程。在此過程中,需要管理者有效地把握創(chuàng)新發(fā)展的長期收益與短期業(yè)績之間的平衡,在推進大數(shù)據(jù)融合的同時防范和控制其中的組織風險,并審慎地思考和重新定義組織內(nèi)外部邊界。
換言之,對企業(yè)而言,大數(shù)據(jù)實質(zhì)上是一種管理思維,其支點在于業(yè)務(wù)信息資源與社交媒體的融合,以及內(nèi)外部數(shù)據(jù)的融合,在這樣的支點上反思企業(yè)的組織形態(tài)、運作范式和價值創(chuàng)造模式,是“大數(shù)據(jù)企業(yè)”的真正內(nèi)涵所在。(來源:軟件定義世界)
]]>
隨著斯諾登在俄“安居樂業(yè)”,“棱鏡門”事件逐漸淡出人們視線。但是,由此引發(fā)的數(shù)據(jù)隱憂卻引人深思。信息技術(shù)的飛速發(fā)展,使“大數(shù)據(jù)”與情報緊緊掛靠在一起。2013年3月,美國總統(tǒng)奧巴馬宣布啟動“大數(shù)據(jù)研究與開發(fā)計劃”,旨在提高從“大數(shù)據(jù)”中提取情報的能力。美國國防部亦宣布投資2.5億美元啟動“大數(shù)據(jù)”研發(fā)計劃,輿論稱此舉為“重新定義軍事情報與贏得戰(zhàn)爭而進行的一場豪賭”。
一般而言,數(shù)據(jù)集合的容量要超過萬億字節(jié)(TB)甚至千萬億字節(jié)(PB)級別才被視為是“大數(shù)據(jù)”。在當前,一個不容忽視的事實是,現(xiàn)有的數(shù)據(jù)處理技術(shù)已經(jīng)明顯落后于數(shù)據(jù)本身的發(fā)展速度,而這種矛盾必然給情報工作帶來巨大挑戰(zhàn)。
先進的情報、監(jiān)視和偵察系統(tǒng)的大規(guī)模部署和應(yīng)用,使得部隊能夠獲得前所未有的態(tài)勢感知能力。但是,“大數(shù)據(jù)”的出現(xiàn)卻加劇了信息過載問題,前端部署的先進傳感器數(shù)量越多,最終涌入后端分析部門的數(shù)據(jù)洪流就越難以應(yīng)對。美軍將這種困境形象地描述為:情報分析人員處理軍事情報信息就像從打開的高壓水管中喝水一樣困難。曾任美軍參聯(lián)會副主席的詹姆斯?卡特賴特曾表示,美軍一架“捕食者”無人機一天所搜集的視頻數(shù)據(jù)就需要19名情報分析人員來處理,足見數(shù)據(jù)分析的難度要遠遠超過數(shù)據(jù)獲取。如今,美軍在阿富汗部署的情報、監(jiān)視和偵察系統(tǒng)每天獲取的數(shù)據(jù)量就超過了53TB,而其中真正被有效分析的數(shù)據(jù)比率卻不高。
情報工作領(lǐng)域的“大數(shù)據(jù)”往往來源多樣,連續(xù)不斷產(chǎn)生,而且處理時間不易同步,這些因素必然導致情報數(shù)據(jù)的價值含量變低,提取難度加大。比如,部署于邊境地區(qū)24小時不間斷運轉(zhuǎn)的監(jiān)控設(shè)備,其攝錄的視頻數(shù)據(jù)中可能只有幾分鐘甚至幾秒鐘真正具有價值,而單純依靠人工挑選這些信息無疑事倍功半。美國國防部高級項目研究局執(zhí)行主管凱哈姆?加布里爾認為,使用現(xiàn)有技術(shù)處理“大數(shù)據(jù)”猶如“大海撈針”,他說:“假如1加侖的水代表1比特的信息,那么整個大西洋只能存儲全球2010年生產(chǎn)出來的信息,而使用現(xiàn)有技術(shù)系統(tǒng)從其中提取特定信息的難度相當于在浩瀚的大西洋中找到1只容積為55加侖容量的木桶。”因此,現(xiàn)有數(shù)據(jù)挖掘、檢索、篩選、提取、分析的技術(shù)實際上已無法滿足“大數(shù)據(jù)”時代的信息處理需求,主要情報強國已經(jīng)開始研發(fā)高度智能化、自動化、能夠?qū)崿F(xiàn)人機交互的新型技術(shù)系統(tǒng),以提高處理情報數(shù)據(jù)的效率。
與作戰(zhàn)行動支援密切相關(guān)的情報數(shù)據(jù)往往關(guān)乎部隊的生死存亡,如果不能在合理時限內(nèi)將其生產(chǎn)為情報,那么,隨著情勢不斷變化,原始數(shù)據(jù)就可能失去應(yīng)有的價值。因此,情報的價值轉(zhuǎn)化效率是衡量信息化條件下軍隊戰(zhàn)斗力的重要標準之一。如今,情報與作戰(zhàn)一體化已經(jīng)取得快速進展,在某些作戰(zhàn)行動中,無人機已經(jīng)可以對實時偵察捕獲的重要目標進行“發(fā)現(xiàn)即摧毀”式的精確打擊。但是,全方位構(gòu)建信息化條件下遂行聯(lián)合作戰(zhàn)的“偵打一體”體系,必須以各類原始數(shù)據(jù)能夠被及時、快速、準確地生產(chǎn)為情報,并提供給所需用戶為前提。如果現(xiàn)有情報能力無法應(yīng)對“大數(shù)據(jù)”洶涌而來的負擔,必然會造成情報價值轉(zhuǎn)換效率降低,直接影響到作戰(zhàn)部隊的戰(zhàn)場態(tài)勢感知、信息攻防以及應(yīng)急反應(yīng)能力。針對這種挑戰(zhàn),美國國防部在其“大數(shù)據(jù)”研發(fā)計劃中提出了“從數(shù)據(jù)到?jīng)Q策”的理念,核心思想就是對情報工作流程進行革新,使情報的前端和后端合為一體,與作戰(zhàn)流程無縫鏈接并相互驅(qū)動,從而實現(xiàn)體系化的“從傳感器到射手”的革新。
?原標題—— 情報生產(chǎn)如何應(yīng)對“大數(shù)據(jù)”挑戰(zhàn)
文章來源:中國軍網(wǎng)
]]>
如今的消費者對于廠商各種營銷手段已經(jīng)有了很強的戒備心理,傳統(tǒng)形式的廣告手段越來越難打動用戶。在這樣的背景下,企業(yè)主該如何打動用戶來點擊自己的廣告呢?
近些年,企業(yè)不斷收集和購買用戶的各種原始的行為數(shù)據(jù),通過分析這些數(shù)據(jù),可以創(chuàng)建比如親和力、興趣愛好、用戶滿意度等等數(shù)據(jù)模型。對于企業(yè)而言,這些可用數(shù)據(jù)模型和以用戶為中心的信息對于企業(yè)做營銷有著非常重大的積極影響。據(jù)福克斯商業(yè)報道:“超過80%的企業(yè)高管認為公司如果不能接受和利用大數(shù)據(jù)將很快失去競爭優(yōu)勢并且可能面臨滅絕。”
用戶行為數(shù)據(jù)是有待深挖的金礦
毫無疑問,社交平臺的興起讓企業(yè)有了更多用戶行為數(shù)據(jù)的來源。這些數(shù)據(jù)源包括許多私人的愛好,比如關(guān)于體育,書籍和電影甚至生活偏好,這為企業(yè)做營銷提供了很大的幫助。因為用戶會把這些喜歡的內(nèi)容分享給有選擇性的朋友,企業(yè)通過對已知用戶行為數(shù)據(jù)的進一步挖掘,可能更加精準的做到用戶分析并找到和用戶有連接關(guān)系的用戶,然后做出有針對性的營銷投放。
所以在數(shù)據(jù)時代,新的營銷環(huán)境和手段都發(fā)生了變化,通過這樣的數(shù)據(jù)挖掘可以讓企業(yè)更方便的查找和分析用戶的行為模式。雖然會有人質(zhì)疑這樣的行為數(shù)據(jù)的精準性,但今天通過這樣的分析會更容易獲得用戶的屬性畫像,事實上這些行為數(shù)據(jù)能夠讓企業(yè)在制定廣告或者線下活動的時候更加具有相關(guān)性和有效性。
行為數(shù)據(jù)分析和預測備受營銷人歡迎
如今許多網(wǎng)站和品牌主已經(jīng)明白,提高用戶體驗和參與度會提升轉(zhuǎn)化率,對此它們需要更加個性化的方式來吸引用戶。據(jù)不完全統(tǒng)計,多達94%的營銷人員同意個性化服務(wù)是當前和未來營銷成功的關(guān)鍵點。
正是因為企業(yè)利用行為數(shù)據(jù)分析可以做到具有針對性的個性化服務(wù),為企業(yè)營銷帶來價值,這使得眾多企業(yè)越發(fā)關(guān)注行為數(shù)據(jù)帶來的價值。此外,這些行為數(shù)據(jù)還有益于企業(yè)改進服務(wù)和提升產(chǎn)品及營銷質(zhì)量,這些都是行為數(shù)據(jù)給企業(yè)帶來的價值。
例如,一些電子商務(wù)網(wǎng)站會通過給注冊會員發(fā)帶有產(chǎn)品折扣的郵件,看用戶對什么樣的信息產(chǎn)生興趣,通過對每位會員行為數(shù)據(jù)分析來觀察會員對所發(fā)信息的感興趣程度,然后根據(jù)用戶產(chǎn)生的行為數(shù)據(jù)進行精準個性化的產(chǎn)品推薦。
在這個數(shù)據(jù)信息爆炸的時代,企業(yè)在做出任何重點決策之前,都應(yīng)該去分析和洞察數(shù)據(jù)帶來的價值。最近,Infosys?study的調(diào)查發(fā)現(xiàn),86%的消費者在購買的行為方式中都會受到個性化服務(wù)的影響進而產(chǎn)生消費行為,而能夠影響消費者這些行為都離不開對數(shù)據(jù)的分析。(文章轉(zhuǎn)自SOCIAL?TOUCH?作者:壯壯)
]]>輿情服務(wù)在進行行業(yè)規(guī)范和整合的同時,正面臨著大數(shù)據(jù)挑戰(zhàn)。本文從信息濃縮、數(shù)據(jù)深挖、關(guān)聯(lián)輿情構(gòu)建與跟蹤、大輿情等層面,深入分析并提出大數(shù)據(jù)時代輿情服務(wù)的應(yīng)對建議。
濃縮海量信息抵抗“數(shù)據(jù)爆炸”
“信息超載”“數(shù)據(jù)爆炸”將人們變?yōu)闄C械的信息查詢者。在過剩的信息海洋里,閱讀由享受變?yōu)樨摀C绹⑷毡窘陙淼男畔⑽章蕛H為10%左右。曾經(jīng)公務(wù)繁忙的美國前總統(tǒng)克林頓說,就理解和領(lǐng)會能力而言,頭腦中塞滿東西和頭腦中空空如也同樣糟糕。也因此,能夠在短時間內(nèi)消費最大信息量的“淺閱讀”成了大數(shù)據(jù)時代最大的閱讀變革。從輿情產(chǎn)品服務(wù)的角度看,濃縮海量信息,抵抗“數(shù)據(jù)爆炸”已成基本要求。可從兩方面著手:一方面在信息廣度上作文章,最大可能去抓取數(shù)據(jù)信息。同時掌握數(shù)據(jù)抓取能力與輿情解讀能力將是未來輿情分析的必備技能。另一方面,輿情分析人員需要對一些非常重要的事件,給予一種更加平易的解讀方式。
強化數(shù)據(jù)深挖實現(xiàn)“信息增值”
提高輿情產(chǎn)品質(zhì)量的關(guān)鍵,在于對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。這就要求分析人員提高對信息的鑒別力、萃取力、掌控力,對數(shù)據(jù)進行生產(chǎn)、分析和解讀,探索一條為用戶提供分眾化服務(wù)的信息增值之路。
目前,已有美國大學專門開設(shè)了研究大數(shù)據(jù)技術(shù)的課程,培養(yǎng)下一代的“數(shù)據(jù)科學家”。在國內(nèi),情況更不容樂觀,很多輿情服務(wù)機構(gòu)甚至沒有專門的數(shù)據(jù)管理、分析部門和專業(yè)分析團隊。未來需要一批有較高學習能力、分析能力、知識水平的數(shù)據(jù)從業(yè)人員占據(jù)輿情服務(wù)重鎮(zhèn)。
構(gòu)建關(guān)聯(lián)輿情消除“信息孤島”
目前我國信息化應(yīng)用水平參差不齊,政府和企業(yè)不同的部門之間都存在“信息孤島”問題:有多少個部門就有多少個信息系統(tǒng),每個系統(tǒng)都有自己的數(shù)據(jù)庫、應(yīng)用軟件和用戶界面,完全是獨立的體系,阻礙了數(shù)據(jù)的互通互聯(lián)。輿情機構(gòu)提供的個案分析已不能滿足政府和企業(yè)的資訊需求,協(xié)助對方消除“信息孤島”越來越緊迫。
作為政府和企業(yè)的資訊提供者,輿情服務(wù)機構(gòu)需把握未來幾年大數(shù)據(jù)在公共及企業(yè)管理領(lǐng)域發(fā)展的重要方向,充分整合政府和企業(yè)的數(shù)據(jù)資產(chǎn),進而完善對方的決策流程。通過搭建關(guān)聯(lián)領(lǐng)域的數(shù)據(jù)庫、輿情基礎(chǔ)數(shù)據(jù)庫等,在輿情預警、研判、應(yīng)對、決策等環(huán)節(jié),豐富和完善決策參考體系。屆時,輿情和數(shù)據(jù)服務(wù)不再局限于個案分析,同時需要跟蹤關(guān)聯(lián)輿情,不再局限于危機解決,還要輔之以決策參考。
跟蹤關(guān)聯(lián)數(shù)據(jù)提高趨勢研判
大數(shù)據(jù)的核心和目標就是預測。輿情等數(shù)據(jù)分析機構(gòu)從互聯(lián)網(wǎng)浩如煙海的數(shù)據(jù)中挖掘信息、判斷趨勢、提高效益已有實際應(yīng)用。在美國中央情報局,情報人員通過抓取海量數(shù)據(jù)來追蹤恐怖分子和監(jiān)控社會情緒,首席技術(shù)官格斯?漢特稱,在“阿拉伯之春”中,大數(shù)據(jù)分析可以了解多少人和哪些人正在從溫和立場變得更為激進,并“算出”誰可能會采取對某些人有害的行動。
在大數(shù)據(jù)時代,決策行為將更多地基于數(shù)據(jù)、分析和事實做出。鑒于此,2012年3月29日美國政府發(fā)布的《大數(shù)據(jù)研究和發(fā)展計劃》提出,應(yīng)當通過對海量和復雜的數(shù)字資料進行收集、整理,從中獲得真知灼見,以提升對社會經(jīng)濟發(fā)展的預測能力。具體到輿情服務(wù),分析人員要不斷增強關(guān)聯(lián)輿情信息的分析和預測,把服務(wù)的重點從單純的收集有效數(shù)據(jù)向?qū)浨榈纳钊胙信型卣梗瑥淖⒅亍办o態(tài)收集”向注重“動態(tài)跟蹤”拓展,從致力“反映問題”向致力“解決問題”拓展,使輿情產(chǎn)品“更快”——預警快、決策快。
樹立大輿情觀念拓展服務(wù)邊界
提起輿情監(jiān)測,人們更多想到網(wǎng)絡(luò)輿情,忽略了現(xiàn)實社會生活中的輿論情況。輿情服務(wù)與社會調(diào)查結(jié)合不足,甚至直接把網(wǎng)絡(luò)觀點整理后報送給客戶,難免對決策產(chǎn)生誤導。如幾年前,對于假期增減的網(wǎng)絡(luò)投票,有機構(gòu)打著尊重民意的旗號,在網(wǎng)上和其他媒體做調(diào)查,而最后的結(jié)果卻與很多民眾真實意見相左,破壞了輿情服務(wù)的公信力。
輿情服務(wù)機構(gòu)應(yīng)樹立大輿情觀念,使輿情服務(wù)的主體和邊界“更全”。這里的大輿情,強調(diào)大數(shù)據(jù)的關(guān)聯(lián)性,橫向看,將服務(wù)主體延伸至政府、企業(yè)和社會的各領(lǐng)域;縱向看,將產(chǎn)品內(nèi)容延伸至包括輿情預警到?jīng)Q策方案在內(nèi)的各環(huán)節(jié)。網(wǎng)絡(luò)輿情分析、社會調(diào)查和效果研究相整合,不但拓展了輿情服務(wù)的邊界,同時使輿情產(chǎn)品更科學、嚴謹,避免誤判。
文章來源:中國記者
]]>
“大數(shù)據(jù)”正以難以想象的速度帶來新一輪信息化革命。很多專家學者紛紛預測,“大數(shù)據(jù)”時代,即將帶來新的思維變革、商業(yè)變革和管理變革。那么,究竟何為“大數(shù)據(jù)”?“大數(shù)據(jù)”時代會對企業(yè)發(fā)展帶來哪些影響?
“大數(shù)據(jù)”時代來臨了嗎?
世界正進入“大數(shù)據(jù)”時代
“大數(shù)據(jù)”時代特征是三“大”。第一,管理難度大。海量數(shù)據(jù)的收集、保存、維護、共享及研究等任務(wù),都面臨越來越大的挑戰(zhàn)。第二,研究價值大。海量的精準數(shù)據(jù),輔以信息技術(shù),使對忠實記錄現(xiàn)實生產(chǎn)生活的數(shù)據(jù)進行系統(tǒng)研究以探求背后規(guī)律成為可能。第三,對社會影響大。對海量數(shù)據(jù)的研究,能夠從紛繁復雜的元數(shù)據(jù)中提取信息,進而提煉出有規(guī)律的知識,將這些知識普遍應(yīng)用于經(jīng)濟、政治、社會生活的方方面面,將極大地激發(fā)社會生產(chǎn)力,產(chǎn)生革命性的影響。
現(xiàn)在,如何收集、管理和分析數(shù)據(jù)正在從網(wǎng)絡(luò)信息技術(shù)研究領(lǐng)域擴散到社會各個層面,世界正進入“大數(shù)據(jù)”時代。首先,數(shù)據(jù)正呈現(xiàn)指數(shù)級增長。各種基礎(chǔ)數(shù)據(jù)的收集、各種傳感器的劇增、高清晰度的圖像和視頻的迅速應(yīng)用,都導致了數(shù)據(jù)爆炸。其次,技術(shù)在進步。近年來數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、商務(wù)智能、無線傳感器、云計算、語義網(wǎng)等新技術(shù)頻繁出現(xiàn):商務(wù)智能幫助企業(yè)對信息進行高度細分、高度定制,數(shù)據(jù)挖掘技術(shù)幫助企業(yè)分析客戶過去的行為模式并預測其未來需求,云計算將有形的計算轉(zhuǎn)化為無形的服務(wù),遍布世界的數(shù)據(jù)聯(lián)網(wǎng)獲取分析成為可能,數(shù)據(jù)金礦開掘效率提高??
互聯(lián)網(wǎng)企業(yè)是 “大數(shù)據(jù)”時代的急先鋒和最早最直接的受益者,效果較為明顯。但在 “大數(shù)據(jù)”時代,將不再存在傳統(tǒng)意義上的傳統(tǒng)企業(yè),對數(shù)據(jù)的有效利用將是所有企業(yè)共同競爭的核心。從這個意義上說,所有的企業(yè)都將是一個數(shù)據(jù)集,即數(shù)據(jù)化企業(yè),都將深深地受其影響。
事實證明已經(jīng)來臨
目前中國的情況已經(jīng)符合了“大數(shù)據(jù)”時代的特點。第一,企業(yè)數(shù)據(jù)量的增長速度大大超過從前。據(jù)計世資訊統(tǒng)計,近三四年,中國500強企業(yè)的數(shù)據(jù)總量每半年翻一番,這是以前數(shù)十年中國企業(yè)信息化發(fā)展中絕無僅有的。第二,數(shù)據(jù)多樣化,特別是非結(jié)構(gòu)化數(shù)據(jù)爆炸式增長。過去三年,非結(jié)構(gòu)化數(shù)據(jù)復合年增長率超過90%,驅(qū)動力主要來自互聯(lián)網(wǎng)、移動應(yīng)用、微博、社區(qū)網(wǎng)絡(luò)等新應(yīng)用,以及平安城市、智慧城市等信息化建設(shè)。第三,快速化需求。企業(yè)更加需要適應(yīng)快速變化的市場環(huán)境,而且信息技術(shù)已經(jīng)使得全球市場無邊界化、無國界化。企業(yè)要想在這樣的市場中立足,必須利用信息技術(shù)快速從海量信息中獲得對自身最有價值的信息。如快消品行業(yè),以前分析銷售報表可能是按天來計算,但是現(xiàn)在這個速度已經(jīng)遠遠無法準確把握不同地域的消費者需求的變化。第四,數(shù)據(jù)價值最大化。如何讓這些有用的信息給企業(yè)或個人帶來價值,為企業(yè)發(fā)展創(chuàng)造一種新的商業(yè)模式或者利潤增長點,這是“大數(shù)據(jù)”時代對于數(shù)據(jù)的核心要求。如互聯(lián)網(wǎng)行業(yè)利用大數(shù)據(jù)分析網(wǎng)民上網(wǎng)習慣,及時推送各種個性化信息;公共服務(wù)行業(yè)通過分析視頻、音頻等信息,進行輿情監(jiān)測,保障社會安全等。
很難說“大數(shù)據(jù)”時代真正到來
如果從純粹技術(shù)的角度來看,“大數(shù)據(jù)”只是在過去的“信息爆炸”一詞基礎(chǔ)上的延續(xù),“大數(shù)據(jù)”時代也是“信息時代”的一種延伸。今天,人們不得不更加關(guān)注“大數(shù)據(jù)”主要是 “大數(shù)據(jù)”給經(jīng)濟活動乃至全社會的影響力無比增大的緣故。比較典型的例子就是谷歌這樣在“大數(shù)據(jù)”的應(yīng)用上獲得了前所未有的巨大商業(yè)利潤的企業(yè),開始不斷涌現(xiàn)。
信息、情報數(shù)據(jù)是在現(xiàn)實的生產(chǎn)經(jīng)營過程中產(chǎn)生的結(jié)果,屬于無形資產(chǎn),跟企業(yè)的“人、財、物”等生產(chǎn)經(jīng)營資源一樣,具有同等價值。當下“大數(shù)據(jù)”的應(yīng)用不僅局限于利用高速的硬件、軟件工具,更重要的是通過更快更好地利用數(shù)據(jù)、情報等信息資產(chǎn),更好地服務(wù)于生產(chǎn)經(jīng)營活動。從這個意義上講,“大數(shù)據(jù)”在企業(yè)中的應(yīng)用范圍是全方位的、無所不及的。但是由于對“大數(shù)據(jù)”時代”所產(chǎn)生的巨大社會和經(jīng)濟效應(yīng)還無法全部了解和掌握,因此很難說“大數(shù)據(jù)”時代真正到來。目前應(yīng)該還是剛剛開始了解的階段。隨著人們對信息時代的更深了解,人類社會與信息,包括“大數(shù)據(jù)”的互動也是相互影響、動態(tài)變化的。
數(shù)據(jù)應(yīng)用拖后腿
如果從數(shù)據(jù)結(jié)構(gòu)復雜多樣,數(shù)據(jù)規(guī)模爆炸增長,對社會生活產(chǎn)生巨大影響的角度看,已經(jīng)進入“大數(shù)據(jù)”時代。但是從對數(shù)據(jù)的應(yīng)用角度看,當下還處于“大數(shù)據(jù)”時代的早期。“大數(shù)據(jù)”已經(jīng)具備了應(yīng)用的基礎(chǔ),并且應(yīng)用潛力巨大,但當下大家對數(shù)據(jù)應(yīng)用還不充分,比如智慧城市建設(shè)中,通過對大量交通攝像頭采集的數(shù)據(jù)進行深度分析,可以有效地引導車輛的通行,會對緩解交通壓力帶來積極影響。在其他方面的應(yīng)用更加廣泛,如在通信領(lǐng)域,通過定位對一個人的位置信息進行分析挖掘,可以與銀行、保險、航空公司等形成深度的合作,實現(xiàn)針對性服務(wù),創(chuàng)造新的利潤增長點。這樣的例子很多,但目前還處于應(yīng)用的起步階段。
挖掘越深,價值越大
“大數(shù)據(jù)”將會對企業(yè)帶來革命性的影響。它會改變企業(yè)傳統(tǒng)的管理和運營模式,成為企業(yè)的神經(jīng)系統(tǒng)及決策中心,有效降低管理成本,提高對市場的快速反應(yīng)能力,提高服務(wù)水平。通過對“大數(shù)據(jù)”的分析與挖掘,可以實現(xiàn)管理流程的優(yōu)化,將粗放式、經(jīng)驗式的管理變成精細化、數(shù)據(jù)驅(qū)動的管理。比如中小企業(yè)貸款問題,如果我們能收集到足夠的中小企業(yè)經(jīng)營管理數(shù)據(jù),通過建立模型進行綜合分析,可以有效評估風險,從而指導授信和定價,并實現(xiàn)放貸的批量的自動化審批。 這可以大大降低金融機構(gòu)的經(jīng)營成本,提高放貸的效率,同時又能很好的確保盈利水平。
“大數(shù)據(jù)”的發(fā)展對于在不同行業(yè)、不同發(fā)展階段、不同規(guī)模的國企有不同的影響程度。 應(yīng)用越深,價值越大,而目前企業(yè)需要做的就是提升信息化水平,其次需要積極挖掘和思考“大數(shù)據(jù)”的應(yīng)用,需要密切關(guān)注在該領(lǐng)域的新技術(shù)發(fā)展趨勢,并結(jié)合經(jīng)營管理模式的創(chuàng)新,為“大數(shù)據(jù)”的應(yīng)用尋找契合點和突破點。比如德勤在銀行通過對攝像頭采集的數(shù)據(jù)進行分析,了解銀行營業(yè)廳內(nèi)顧客和客戶經(jīng)理活動區(qū)域的交織情況,以此優(yōu)化客戶經(jīng)理的服務(wù)方式。再如通過對顧客信用卡銷卡前行為的分析,挖掘出其共有的許多特征,為客戶挽留制定有效的策略。這些應(yīng)用在國外有了大量的成功案例,但在國內(nèi)還剛剛起步。大數(shù)據(jù)應(yīng)用雖處初級階段,但以及無所不及,未來潛力巨大。
]]>當前涌現(xiàn)出許多處理大數(shù)據(jù)的工具,如Hadoop,但基本上這些工具的前提是你要在本地擁有數(shù)據(jù),如處理本地的聯(lián)機交易或日志或海量數(shù)據(jù)庫中的數(shù)據(jù)。也就是說這些工具并沒有增加有價值的數(shù)據(jù),而只是加快了處理現(xiàn)有數(shù)據(jù)的速度。
然而真正有價值的數(shù)據(jù)一般是在企業(yè)的外部,在互聯(lián)網(wǎng)上。
互聯(lián)網(wǎng)最神奇的地方在于:你想要的數(shù)據(jù)已經(jīng)在某個地方了,你只需找到他們并提取出來;互聯(lián)網(wǎng)是一個虛擬社會,幾乎人人都在上面活動,提供了許多信息也留下了許多蹤跡。
如果一個B2B企業(yè)需要它所有競爭對手的客戶的信息;一個世界級的品牌需要對互聯(lián)網(wǎng)上用戶的微博評論與博客評論加以系統(tǒng)化的關(guān)注,適時做出反應(yīng);一個國家需要收集全球范圍內(nèi)的恐怖主義信息,以輔助應(yīng)對策略。這些都需要從互聯(lián)網(wǎng)的海量信息中進行系統(tǒng)的周期性的數(shù)據(jù)挖掘,把我們需要結(jié)構(gòu)化的數(shù)據(jù)從海量非結(jié)構(gòu)化數(shù)據(jù)中提取出來。
這個進行挖掘的工具就是樂思網(wǎng)絡(luò)信息采集系統(tǒng),可處理任意網(wǎng)站,把您需要的信息自動地周期性地從無結(jié)構(gòu)或半結(jié)構(gòu)的海量互聯(lián)網(wǎng)信息中提取出來,為您帶來額外的價值,因為它來自外部,是從信息礦山中的挖掘提取出來的黃金。
樂思網(wǎng)絡(luò)信息采集系統(tǒng)已被眾多大中型組織選擇用以應(yīng)對處理互聯(lián)網(wǎng)海量信息,如阿里巴巴,環(huán)球資源,神華集團,某國中央政府等。關(guān)于該軟件的更多信息,請訪問其供應(yīng)商網(wǎng)站www.07zn.com。
]]>