近年來有幾個趨勢對企業的影響就像大數據那般顯著。各類規模和形態的公司在近幾年都陸陸續續以極大的熱情步入大數據時代,因為他們都意識到了大數據對他們的公司會有怎樣的益處。從開拓創新新的盈利方式到提高企業的生產力,大數據的這些令人印象深刻的優勢很少受到爭議。但是要正確地使用大數據,一個公司必須首先收集和處理它,這意味著可能要從多個數據來源中收集盡可能多的信息。雖然一個企業的確基友可能用上他們所收集的所有數據,但更為常見的情況卻是,一些數據將永遠不會被使用。當談到非結構化數據時,這的確是個問題。隨著時間推移,所有未被使用的數據可能會帶來一個問題——堵塞了數據中心,這很像可以堵住房子里的水管的那些黏糊糊的東西。專家們為這類數據創造了一個術語——暗數據(Dark?data),如果你的公司沒有清理這些暗數據,那它們很可能會增加公司的運營成本和各種安全隱患。
若要以正確的方式處理暗數據,你首先需要對它進行定義。那么暗數據究竟是什么呢?簡而言之,暗數據就是一個企業收集、處理和存儲起來的,最后并沒有投入任何特定用途的信息。通常情況下,暗數據將會閑置多年,在你的公司繼續收集更多數據的同時占用數據中心中的寶貴空間。隨著未使用數據的不斷堆積,一些最開始可能只是小麻煩的問題會越積越嚴重。所有這些額外的數據都會導致增加開支,但更嚴重的是,這些數據通常是不受保護的,這等于打開了數據泄露和其他可能的安全事故的大門。
因此,如果暗數據是如此昂貴和危險,為什么各公司甚至忍受它們保持在身邊?事實是,許多企業寧愿存儲他們手機的所有數據,以確保他們遵守所有的法律法規。與此同時,企業都不情愿清空未使用的數據,因為他們永遠不知道自己是否會在未來的某個時間需要它們。大數據分析能夠產生一些解決問題的方法,而為了找到這些解決方案,企業需要用到相關的數據。就像那種常見的心態一樣,僅僅因為你現在用不上它不代表它在以后也沒有價值。然而這樣的想法并不總會變成現實。如果有的話,這和囤積者的心態也沒什么不同。即使一個企業不采取什么特點的心態,很多公司覺得他們實在是太忙了,以至于無法顧及到清理暗數據這檔子事。
對暗數據的一次徹底清理可能十分耗時,這是事實,但結果也非常值得去努力。主要的挑戰在于要擺脫暗數據,同時仍然持有任何必要的數據。在你的公司中你有幾種方法可以做到這一點。其中最有效的方法是過濾數據。當收集由機器和互聯網產生的數據時,你會發現數據伴隨的很多有價值的信息在很大程度上是無用的。通過識別和隔離你所需要的數據,你能夠把它從所有其他的雜音中分離出來。這有助于放置一開始就發生不必要的數據堆積的情況。在這一努力過程中,某些大數據工具能夠有所幫助,但它取決于每個公司去識別哪些數據是最寶貴從而需要保留的,而哪些數據是最好清理掉的。
各企業還可以積極努力地通過把探索到的暗數據導入其他數據庫來清理他們的數據中心。云計算在這一過程中可謂是特別得心應手。如果你的公司和一個云供應商有一種穩定的合作關系,那么利用它們來存儲不需要的數據將會是一個既明智又經濟劃算的選擇。當在使用此法時,你會從你的數據中心中擺脫暗數據,但是當你需要在一個新的分析項目中用到它時,你仍然可以使用它們。企業也可能會選擇從他們的數據中心中把數據存檔到一個單獨的位置,例如將信息傳送到硬盤驅動器中,這個驅動器比閃存存儲的性能要差,但卻是一個成本更低的替代性方案。
毫無疑問,暗數據可能對你的公司經營產生損害。如果沒有正確的管理和數據保留策略,未使用的數據可以很快地成為一個企業的負擔。最好的策略是盡早采取計劃,并且長期堅持計劃,這樣的話你就永遠不用再面對需要立即清理暗數據負載的挑戰了。一個井井有條的數據中心往往意味著成功使用了大數據和浪費時間與資源之間的區別。
????????????——原文作者:Rick?Delgado???譯文來源:CDA數據分析師
]]>