在自然界中有一種物質(zhì)叫做“暗物質(zhì)”,從物理學(xué)家的解釋來(lái)看,“暗物質(zhì)”是自然界當(dāng)中最充滿能量的部分,如何發(fā)揮“暗物質(zhì)”的作用是當(dāng)代自然科學(xué)研究的話題。而在數(shù)據(jù)科學(xué)領(lǐng)域,人們都在討論如何發(fā)掘隱藏在企業(yè)內(nèi)部和整個(gè)互聯(lián)網(wǎng)上巨量的“暗數(shù)據(jù)”,怎樣發(fā)揮“暗數(shù)據(jù)”的價(jià)值。
有一種說(shuō)法,人類只要利用大腦的?10%,就可以實(shí)現(xiàn)長(zhǎng)生不老。即便在無(wú)數(shù)神經(jīng)學(xué)家將其斥為胡編亂造的無(wú)稽之談,多年以后,我們還是不會(huì)放棄這種念頭,因?yàn)槲覀冎雷陨磉€有很多潛力沒(méi)有發(fā)揮,只是有待發(fā)掘。同樣,許多企業(yè)也僅利用了數(shù)據(jù)的一小部分,而把經(jīng)過(guò)巨大的開(kāi)銷(xiāo)存儲(chǔ)著的關(guān)于流程、員工、客戶和產(chǎn)品的寶貴數(shù)據(jù)放在數(shù)據(jù)孤島中,無(wú)法有效利用。我們對(duì)數(shù)據(jù)的挖掘還處在一個(gè)非常初級(jí)的階段,可將其稱之為“黎明前的黑暗”階段。
定義“暗數(shù)據(jù)”
“暗數(shù)據(jù)”是指企業(yè)已付費(fèi)購(gòu)買(mǎi)、收集以及存儲(chǔ)在各種系統(tǒng)和數(shù)據(jù)存儲(chǔ)中,但實(shí)際上目前并未使用、分析甚至訪問(wèn)的所有數(shù)據(jù)。我們可以將“暗數(shù)據(jù)”視為大數(shù)據(jù)的子集,它可以包括存儲(chǔ)在?CRM?數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)、日志文件甚至來(lái)自于社交媒體的非結(jié)構(gòu)化數(shù)據(jù)等所有數(shù)據(jù)。
當(dāng)然,有些企業(yè)已經(jīng)實(shí)施數(shù)據(jù)倉(cāng)庫(kù)或者大數(shù)據(jù)平臺(tái),清楚數(shù)據(jù)的存在,并正在發(fā)掘數(shù)據(jù)的價(jià)值,但他們依然存在暗數(shù)據(jù)的問(wèn)題。因?yàn)閷?shí)施數(shù)據(jù)倉(cāng)庫(kù)常常是站在IT的角度,對(duì)于IT來(lái)講或許已經(jīng)是可以利用的明數(shù)據(jù),對(duì)于其它部門(mén),尤其是業(yè)務(wù)部門(mén)如果沒(méi)有充分有效的利用手段和方式,仍然是“暗數(shù)據(jù)”。如果您實(shí)際上無(wú)法利用付費(fèi)購(gòu)買(mǎi)的數(shù)據(jù),那么最終您就無(wú)法對(duì)企業(yè)的整體行為形成一致觀點(diǎn)。這意味著您將無(wú)法分析流程、合理配置資源,也無(wú)法在系統(tǒng)中找到代表您的專有優(yōu)勢(shì)的數(shù)據(jù)。
“暗數(shù)據(jù)”產(chǎn)生
顯而易見(jiàn),?沒(méi)有任何組織主動(dòng)采取低效、?昂貴和不明智的措施。但一系列新應(yīng)用程序和大量新數(shù)據(jù)已使很多公司忽視了他們已經(jīng)擁有和付費(fèi)購(gòu)買(mǎi)的數(shù)據(jù)。為何會(huì)有這么多“暗數(shù)據(jù)”存在?我們從以下四點(diǎn)來(lái)解釋:
1. 企業(yè)甚至沒(méi)有意識(shí)到數(shù)據(jù)的存在
企業(yè)不止有IT部門(mén),還有更多的業(yè)務(wù)人員、管理決策人員,當(dāng)他們嘗試解答疑難問(wèn)題或改進(jìn)工作方式時(shí),會(huì)回避尋找并分析自己不熟悉的數(shù)據(jù)集的挑戰(zhàn),這種情況十分常見(jiàn)。不幸的是,往往由于缺乏技能、時(shí)間或能力,他們很難將正確的數(shù)據(jù)公諸于世,這在日常的工作當(dāng)中是非常典型的一種場(chǎng)景。舉例說(shuō)明,有些企業(yè)表示不清楚到底有多少客戶,這是真的嗎?回答是否定的,因?yàn)楝F(xiàn)在的企業(yè)IT已非常完善,每一筆客戶的交易信息都會(huì)存在系統(tǒng)當(dāng)中,或許有些數(shù)據(jù)質(zhì)量不是很好,但它們都是存在的,只是企業(yè)自己沒(méi)有意識(shí)到。如果這些數(shù)據(jù)以整個(gè)組織都能訪問(wèn)的方式存儲(chǔ),就能為更多業(yè)務(wù)部門(mén)、項(xiàng)目團(tuán)隊(duì)提供支持,進(jìn)而制定更明智的決策,并對(duì)更多假設(shè)進(jìn)行測(cè)試。
2.?企業(yè)意識(shí)到數(shù)據(jù)的存在,但不知道具體位置,利用的手段和方法也不足
企業(yè)已經(jīng)建設(shè)了很多數(shù)據(jù)管理系統(tǒng),知道數(shù)據(jù)是存在的,但如果組織的數(shù)據(jù)體系結(jié)構(gòu)或復(fù)雜的數(shù)據(jù)流程起到阻礙作用,那就很難訪問(wèn)數(shù)據(jù)。如果各個(gè)部門(mén)都在數(shù)據(jù)孤島中工作,并且數(shù)據(jù)保存在遺留數(shù)據(jù)存儲(chǔ)中,那么即使是求知欲最強(qiáng)的團(tuán)隊(duì)也會(huì)徒然碰壁。如果沒(méi)有制定關(guān)于存儲(chǔ)和管理所有這些數(shù)據(jù)的整個(gè)企業(yè)范圍的戰(zhàn)略,那么組織的決策質(zhì)量仍將受制于內(nèi)部組織架構(gòu)和過(guò)時(shí)的技術(shù)。
3.?實(shí)際利用數(shù)據(jù)過(guò)于昂貴阻礙了數(shù)據(jù)使用的效果
即使企業(yè)已經(jīng)發(fā)現(xiàn)了所需的“暗數(shù)據(jù)”,通常也必須面對(duì)與在遺留系統(tǒng)上處理這些數(shù)據(jù)相關(guān)的一連串成本問(wèn)題,如數(shù)據(jù)利用的環(huán)節(jié)過(guò)長(zhǎng)。即便他們通過(guò)使用Hadoop此類的新軟件架構(gòu),在價(jià)格較低廉的硬件上復(fù)制這些數(shù)據(jù)來(lái)努力避免這些成本,但與遷移流程和獲取新技能相關(guān)聯(lián)的初始成本對(duì)于單個(gè)項(xiàng)目而言,通常仍顯得過(guò)高。這也造成了很多的數(shù)據(jù)其實(shí)仍然是未被充分使用的狀態(tài),仍然隱藏在我們的IT系統(tǒng)和日常流程當(dāng)中。為了充分利用企業(yè)已擁有的數(shù)據(jù),需要為更現(xiàn)代化的數(shù)據(jù)體系結(jié)構(gòu)奠定基礎(chǔ),否則,您仍會(huì)繼續(xù)為數(shù)據(jù)支付巨額費(fèi)用,卻無(wú)法承擔(dān)對(duì)其進(jìn)行分析產(chǎn)生的成本。
4.?某些數(shù)據(jù)存在遵守法律的問(wèn)題
如金融、電信、醫(yī)療等行業(yè)的數(shù)據(jù)量非常多,但無(wú)法將某些數(shù)據(jù)提供給任何人分析,最重要的原因之一是害怕違反法律法規(guī)的要求。對(duì)于企業(yè)而言,要使其擁有的數(shù)據(jù)具有意義,需要部署明確定義的流程和工具,以保證這些數(shù)據(jù)的安全性。Informatica?有專門(mén)的解決方案,叫做數(shù)據(jù)脫敏(Data?Masking),保證數(shù)據(jù)隱私不被泄露的情況下充分利用數(shù)據(jù)。
公開(kāi)“暗數(shù)據(jù)”
既然我們面臨著非常多的“暗數(shù)據(jù)”,那么公開(kāi)就是它的對(duì)立面,叫做數(shù)據(jù)的透明化,我們期望的結(jié)果是企業(yè)中所有數(shù)據(jù),對(duì)企業(yè)的任何一個(gè)參與者——IT、業(yè)務(wù)、決策、財(cái)務(wù)——都是透明的,在他們想分析的時(shí)候都能找到所需的數(shù)據(jù)。
任何企業(yè)在發(fā)掘數(shù)據(jù)價(jià)值的時(shí)候,往往包括三種典型的角色:集成商、IT部門(mén)和業(yè)務(wù)部門(mén)。人們常常討論誰(shuí)才是數(shù)據(jù)的主人,一般認(rèn)為是業(yè)務(wù)部門(mén),但完成實(shí)際操作過(guò)程的卻是集成商,似乎所有的報(bào)表都是集成商來(lái)做,所有的分析也是集成商完成。在數(shù)據(jù)分析數(shù)據(jù)使用中有一個(gè)常常被大家忽略的過(guò)程,被稱為數(shù)據(jù)的探索和探查的過(guò)程也是由集成商來(lái)完成。這其實(shí)是業(yè)務(wù)模式的一個(gè)致命弱點(diǎn),由集成商完成數(shù)據(jù)探查工作,再根據(jù)業(yè)務(wù)或者IT提的報(bào)表分析需求來(lái)使用這些數(shù)據(jù),使用數(shù)據(jù)的主體——業(yè)務(wù)部門(mén)并沒(méi)有參與探索數(shù)據(jù),并沒(méi)有親身體驗(yàn)分析數(shù)據(jù)的過(guò)程。
業(yè)務(wù)部門(mén)參與數(shù)據(jù)挖掘?qū)?shù)據(jù)價(jià)值的實(shí)現(xiàn)大小關(guān)系密切。如果找集成商來(lái)做大數(shù)據(jù)平臺(tái)可能也叫BIG?DATA,但這個(gè)“BIG”很小;假如IT部門(mén)能充分參與架構(gòu)設(shè)計(jì)和數(shù)據(jù)的探索過(guò)程,這個(gè)“BIG”會(huì)變得大一點(diǎn);假如業(yè)務(wù)部門(mén)也參與可能使“BIG”變得更大,數(shù)據(jù)在企業(yè)中的流程也會(huì)縮短,業(yè)務(wù)部門(mén)會(huì)知道數(shù)據(jù)的存放位置,“暗數(shù)據(jù)”問(wèn)題能夠更快解決。
業(yè)務(wù)部門(mén)如何才能自我分析數(shù)據(jù),實(shí)現(xiàn)自助服務(wù)?他們需要一個(gè)有效的IT支撐手段,需要IT把暗數(shù)據(jù)透明化,變成透明的數(shù)據(jù)。實(shí)現(xiàn)數(shù)據(jù)透明化的一個(gè)基礎(chǔ)是數(shù)據(jù)標(biāo)準(zhǔn)化,建立標(biāo)準(zhǔn)化平臺(tái)。暗?數(shù)?據(jù)存在于不同系統(tǒng)中,需要重新格式化、解析、篩選、標(biāo)準(zhǔn)化、整合以及細(xì)化,?使其為輸入到任何分析工具和應(yīng)用程序中做好準(zhǔn)備。
真正釋放“暗數(shù)據(jù)”潛能,讓數(shù)據(jù)見(jiàn)光需要一定的策略變化,除了上述的要啟動(dòng)業(yè)務(wù)部門(mén)的自助服務(wù)的能力,以及啟動(dòng)IT部門(mén)的標(biāo)準(zhǔn)化構(gòu)建,還有一個(gè)關(guān)鍵點(diǎn)是啟動(dòng)可重復(fù)利用“暗數(shù)據(jù)”的流程。大多數(shù)公司所犯的最大錯(cuò)誤是認(rèn)為他們只需對(duì)其“暗數(shù)據(jù)”進(jìn)行一次深入探究,這可不止是一個(gè)一次性的流程。數(shù)據(jù)只會(huì)不斷增長(zhǎng),無(wú)論是規(guī)模、多樣性還是價(jià)值,提供數(shù)據(jù)的應(yīng)用程序的數(shù)量和類型也會(huì)不斷變化,因此,與其一遍又一遍地解決單個(gè)“暗數(shù)據(jù)”項(xiàng)目,應(yīng)該考慮建立一個(gè)可重復(fù)的流程。這意味著采用所需技術(shù),建立現(xiàn)代化的基礎(chǔ)架構(gòu),以使您的所有數(shù)據(jù)隨時(shí)可供訪問(wèn)并保持一致,使其保持潔凈、安全、互聯(lián)互通。
“暗數(shù)據(jù)”并非僅僅表明技術(shù)開(kāi)支效率低下,它還表明企業(yè)難以利用其積累起來(lái)的豐富知識(shí),“暗數(shù)據(jù)”是一個(gè)有待發(fā)掘的潛在金礦。在我國(guó)當(dāng)前新型工業(yè)化進(jìn)程中,提倡大數(shù)據(jù)的前奏叫數(shù)字化,數(shù)字化能夠貫通各個(gè)環(huán)節(jié),把原來(lái)可能隱藏在工業(yè)流程當(dāng)中的數(shù)據(jù)釋放出來(lái),用數(shù)據(jù)來(lái)描述工業(yè)流程,這也成為眾多領(lǐng)先企業(yè)希望征服“暗數(shù)據(jù)”的原因所在。
——來(lái)源:TechTarget中國(guó)
]]>
近年來(lái)有幾個(gè)趨勢(shì)對(duì)企業(yè)的影響就像大數(shù)據(jù)那般顯著。各類規(guī)模和形態(tài)的公司在近幾年都陸陸續(xù)續(xù)以極大的熱情步入大數(shù)據(jù)時(shí)代,因?yàn)樗麄兌家庾R(shí)到了大數(shù)據(jù)對(duì)他們的公司會(huì)有怎樣的益處。從開(kāi)拓創(chuàng)新新的盈利方式到提高企業(yè)的生產(chǎn)力,大數(shù)據(jù)的這些令人印象深刻的優(yōu)勢(shì)很少受到爭(zhēng)議。但是要正確地使用大數(shù)據(jù),一個(gè)公司必須首先收集和處理它,這意味著可能要從多個(gè)數(shù)據(jù)來(lái)源中收集盡可能多的信息。雖然一個(gè)企業(yè)的確基友可能用上他們所收集的所有數(shù)據(jù),但更為常見(jiàn)的情況卻是,一些數(shù)據(jù)將永遠(yuǎn)不會(huì)被使用。當(dāng)談到非結(jié)構(gòu)化數(shù)據(jù)時(shí),這的確是個(gè)問(wèn)題。隨著時(shí)間推移,所有未被使用的數(shù)據(jù)可能會(huì)帶來(lái)一個(gè)問(wèn)題——堵塞了數(shù)據(jù)中心,這很像可以堵住房子里的水管的那些黏糊糊的東西。專家們?yōu)檫@類數(shù)據(jù)創(chuàng)造了一個(gè)術(shù)語(yǔ)——暗數(shù)據(jù)(Dark?data),如果你的公司沒(méi)有清理這些暗數(shù)據(jù),那它們很可能會(huì)增加公司的運(yùn)營(yíng)成本和各種安全隱患。
若要以正確的方式處理暗數(shù)據(jù),你首先需要對(duì)它進(jìn)行定義。那么暗數(shù)據(jù)究竟是什么呢?簡(jiǎn)而言之,暗數(shù)據(jù)就是一個(gè)企業(yè)收集、處理和存儲(chǔ)起來(lái)的,最后并沒(méi)有投入任何特定用途的信息。通常情況下,暗數(shù)據(jù)將會(huì)閑置多年,在你的公司繼續(xù)收集更多數(shù)據(jù)的同時(shí)占用數(shù)據(jù)中心中的寶貴空間。隨著未使用數(shù)據(jù)的不斷堆積,一些最開(kāi)始可能只是小麻煩的問(wèn)題會(huì)越積越嚴(yán)重。所有這些額外的數(shù)據(jù)都會(huì)導(dǎo)致增加開(kāi)支,但更嚴(yán)重的是,這些數(shù)據(jù)通常是不受保護(hù)的,這等于打開(kāi)了數(shù)據(jù)泄露和其他可能的安全事故的大門(mén)。
因此,如果暗數(shù)據(jù)是如此昂貴和危險(xiǎn),為什么各公司甚至忍受它們保持在身邊?事實(shí)是,許多企業(yè)寧愿存儲(chǔ)他們手機(jī)的所有數(shù)據(jù),以確保他們遵守所有的法律法規(guī)。與此同時(shí),企業(yè)都不情愿清空未使用的數(shù)據(jù),因?yàn)樗麄冇肋h(yuǎn)不知道自己是否會(huì)在未來(lái)的某個(gè)時(shí)間需要它們。大數(shù)據(jù)分析能夠產(chǎn)生一些解決問(wèn)題的方法,而為了找到這些解決方案,企業(yè)需要用到相關(guān)的數(shù)據(jù)。就像那種常見(jiàn)的心態(tài)一樣,僅僅因?yàn)槟悻F(xiàn)在用不上它不代表它在以后也沒(méi)有價(jià)值。然而這樣的想法并不總會(huì)變成現(xiàn)實(shí)。如果有的話,這和囤積者的心態(tài)也沒(méi)什么不同。即使一個(gè)企業(yè)不采取什么特點(diǎn)的心態(tài),很多公司覺(jué)得他們實(shí)在是太忙了,以至于無(wú)法顧及到清理暗數(shù)據(jù)這檔子事。
對(duì)暗數(shù)據(jù)的一次徹底清理可能十分耗時(shí),這是事實(shí),但結(jié)果也非常值得去努力。主要的挑戰(zhàn)在于要擺脫暗數(shù)據(jù),同時(shí)仍然持有任何必要的數(shù)據(jù)。在你的公司中你有幾種方法可以做到這一點(diǎn)。其中最有效的方法是過(guò)濾數(shù)據(jù)。當(dāng)收集由機(jī)器和互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)時(shí),你會(huì)發(fā)現(xiàn)數(shù)據(jù)伴隨的很多有價(jià)值的信息在很大程度上是無(wú)用的。通過(guò)識(shí)別和隔離你所需要的數(shù)據(jù),你能夠把它從所有其他的雜音中分離出來(lái)。這有助于放置一開(kāi)始就發(fā)生不必要的數(shù)據(jù)堆積的情況。在這一努力過(guò)程中,某些大數(shù)據(jù)工具能夠有所幫助,但它取決于每個(gè)公司去識(shí)別哪些數(shù)據(jù)是最寶貴從而需要保留的,而哪些數(shù)據(jù)是最好清理掉的。
各企業(yè)還可以積極努力地通過(guò)把探索到的暗數(shù)據(jù)導(dǎo)入其他數(shù)據(jù)庫(kù)來(lái)清理他們的數(shù)據(jù)中心。云計(jì)算在這一過(guò)程中可謂是特別得心應(yīng)手。如果你的公司和一個(gè)云供應(yīng)商有一種穩(wěn)定的合作關(guān)系,那么利用它們來(lái)存儲(chǔ)不需要的數(shù)據(jù)將會(huì)是一個(gè)既明智又經(jīng)濟(jì)劃算的選擇。當(dāng)在使用此法時(shí),你會(huì)從你的數(shù)據(jù)中心中擺脫暗數(shù)據(jù),但是當(dāng)你需要在一個(gè)新的分析項(xiàng)目中用到它時(shí),你仍然可以使用它們。企業(yè)也可能會(huì)選擇從他們的數(shù)據(jù)中心中把數(shù)據(jù)存檔到一個(gè)單獨(dú)的位置,例如將信息傳送到硬盤(pán)驅(qū)動(dòng)器中,這個(gè)驅(qū)動(dòng)器比閃存存儲(chǔ)的性能要差,但卻是一個(gè)成本更低的替代性方案。
毫無(wú)疑問(wèn),暗數(shù)據(jù)可能對(duì)你的公司經(jīng)營(yíng)產(chǎn)生損害。如果沒(méi)有正確的管理和數(shù)據(jù)保留策略,未使用的數(shù)據(jù)可以很快地成為一個(gè)企業(yè)的負(fù)擔(dān)。最好的策略是盡早采取計(jì)劃,并且長(zhǎng)期堅(jiān)持計(jì)劃,這樣的話你就永遠(yuǎn)不用再面對(duì)需要立即清理暗數(shù)據(jù)負(fù)載的挑戰(zhàn)了。一個(gè)井井有條的數(shù)據(jù)中心往往意味著成功使用了大數(shù)據(jù)和浪費(fèi)時(shí)間與資源之間的區(qū)別。
????????????——原文作者:Rick?Delgado???譯文來(lái)源:CDA數(shù)據(jù)分析師
]]>