ETL是將業務系統的數據經過抽取、清洗轉換之后加載到數據倉庫的過程,目的是將企業中的分散、零亂、標準不統一的數據整合到一起,為企業的決策提供分析的依據。 ETL是BI項目最重要的一個環節,通常情況下ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。ETL也是一個長期的過程,只有不斷的發現問題并解決問題,才能使ETL運行效率更高,為項目后期開發提供準確的數據。
ETL的設計分三部分:數據抽取、數據的清洗轉換、數據的加載。在設計ETL的時候也是從這三部分出發。數據的抽取是從各個不同的數據源抽取到ODS中(這個過程也可以做一些數據的清洗和轉換),在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運行效率。ETL三個部分中,花費時間最長的是T(清洗、轉換)的部分,一般情況下這部分工作量是整個ETL的2/3。數據的加載一般在數據清洗完了之后直接寫入DW中去。
ETL的實現有多種方法,常用的有三種,第一種是借助ETL工具如Oracle的OWB、SQL server 2000的DTS、SQL Server2005的SSIS服務、informatic等實現,第二種是SQL方式實現,第三種是ETL工具和SQL相結合。前兩種方法各有優缺點,借助工具可以快速的建立起ETL工程,屏蔽復雜的編碼任務,提高速度,降低難度,但是欠缺靈活性。SQL的方法優點是靈活,提高ETL運行效率,但是編碼復雜,對技術要求比較高。第三種是綜合了前面二種的優點,極大的提高ETL的開發速度和效率。
數據的抽取
數據的抽取需要在調研階段做大量工作,首先要搞清楚以下幾個問題:數據是從幾個業務系統中來?各個業務系統的數據庫服務器運行什么DBMS?是否存在手工數據,手工數據量有多大?是否存在非結構化的數據?等等類似問題,當收集完這些信息之后才可以進行數據抽取的設計。
1、與存放DW的數據庫系統相同的數據源處理方法
這一類數源在設計比較容易,一般情況下,DBMS(包括SQLServer,Oracle)都會提供數據庫鏈接功能,在DW數據庫服務器和原業務系統之間建立直接的鏈接關系就可以寫Select 語句直接訪問。
2、與DW數據庫系統不同的數據源的處理方法。
這一類數據源一般情況下也可以通過ODBC的方式建立數據庫鏈接,如SQL Server和Oracle之間。如果不能建立數據庫鏈接,可以有兩種方式完成,一種是通過工具將源數據導出成.txt或者是.xls文件,然后再將這些源系統文件導入到ODS中。另外一種方法通過程序接口來完成。
3、對于文件類型數據源(.txt,,xls),可以培訓業務人員利用數據庫工具將這些數據導入到指定的數據庫,然后從指定的數據庫抽取。或者可以借助工具實現,如SQL SERVER 2005 的SSIS服務的平面數據源和平面目標等組件導入ODS中去。
4、增量更新問題
對于數據量大的系統,必須考慮增量抽取。一般情況,業務系統會記錄業務發生的時間,可以用作增量的標志,每次抽取之前首先判斷ODS中記錄最大的時間,然后根據這個時間去業務系統取大于這個時間的所有記錄。利用業務系統的時間戳,一般情況下,業務系統沒有或者部分有時間戳。
數據的清洗轉換
一般情況下,數據倉庫分為ODS、DW兩部分,通常的做法是從業務系統到ODS做清洗,將臟數據和不完整數據過濾掉,再從ODS到DW的過程中轉換,進行一些業務規則的計算和聚合。
1、數據清洗
數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之后再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據和重復的數據三大類。