
隨著Internet的迅速普及,電子郵件(E-mail)逐漸成為人們進行信息交流的一種重要手段,已變成人們學習、工作和生活中不可或缺的一部分。然而,垃圾郵件(Spam)的泛濫給互聯網帶來了嚴重問題。所謂垃圾郵件,是指不請自來的郵件(UBE: unsolicited bulk email)。據統計,在2002年初,垃圾郵件占整個郵件發送量的16%,2003年初變成42%,2004年初變成60%。Radicati集團預測,到2009年,全球因為垃圾郵件造成的損失將多達1130億美元。垃圾郵件中除了充斥著商業廣告外,還包含著色情暴力非法的成分,其傳播蔓延,嚴重侵害了電子郵件用戶的利益,影響了電子郵件服務的正常運營秩序,危害了互聯網安全和社會穩定,已經成為互聯網一大公害。
目前過濾垃圾郵件的方法有:良好的用戶習慣、立法、提高發垃圾郵件的成本、黑名單、身份確認、基于規則的過濾、基于貝葉斯推理的過濾等。但迄今為止還沒有一種真正有效的方法,這也是絕大多數用戶的電腦里雖然安裝有防病毒軟件,卻沒有安裝反垃圾郵件軟件的原因。
就垃圾郵件的自動過濾技術而言,不能單純用人工智能的方法來過濾垃圾郵件,因為人工智能目前還不是成熟技術。那么,垃圾郵件還有什么特征呢?最大的特征是:只要是垃圾郵件,它都會將相同的內容發送給數十萬上百萬乃至上千萬的接收者。為此,我們可以建立一個分布式統計和分布式學習平臺,以大規模用戶的協同計算來過濾垃圾郵件:首先,我們可以為每一封郵件計算出一個唯一的“指紋”,通過比對“指紋”可以統計同一封郵件的副本數,當副本數達到一定數量,我們就可以判定這封郵件是垃圾郵件;其次,由于互聯網上多臺計算機比一臺計算機掌握的信息更多,因而可以采用分布式貝葉斯學習算法,在成百上千的客戶端機器上實現協同學習過程,收集、分析并共享最新的信息。
要建這樣一個系統,網格技術是最好的選擇,這是由于:(1)垃圾郵件是發給整個互聯網的,我們需要建立一個全局性的基礎設施來收集垃圾郵件的信息;(2) 對每封郵件都需要進行指紋計算,因而需要有一個分布式的計算環境;(3)系統的動態性很強,所有的服務器、客戶端及電子郵件都在不斷保持更新,我們需要一個能夠適應變化的靈活平臺。

圖1 反垃圾郵件網格的系統結構
圖1顯示了反垃圾郵件網格的系統結構,它包括反垃圾郵件客戶端、過濾服務器和調度服務器,其中,在客戶端進行郵件的數字簽名計算、貝葉斯學習;過濾服務器對郵件數字簽名及貝葉斯學習成果進行統計和傳播;調度服務器根據客戶端請求動態地分配過濾服務器。用戶如果使用了我們的反垃圾郵件插件,每當收到一封新郵件時,就會自動生成一個數字簽名,發給網格中的一臺過濾服務器,該服務器根據全局虛擬數據庫,判斷該簽名的重復出現次數,并返回給客戶端。客戶端根據這個次數,就可以知道該郵件的重復發送次數,發送次數越多,它是垃圾郵件的可能性越高。然后再結合分布式貝葉斯算法,就可以比較準確地識別出垃圾郵件,并將出現假陽性錯誤的可能性降到接近0。
利用網格技術的分布式統計功能實現大范圍內垃圾郵件的過濾,尚未見到有關文獻的報道。它體現了真正的網格思想,每個加入系統的用戶既是服務的對象,也是完成分布式統計功能的一個信息節點,隨著系統規模的不斷擴大,系統過濾垃圾郵件的準確性也會隨之提高。用大規模統計方法來過濾垃圾郵件的做法比用人工智能的方法更成熟,它不容易出現誤判假陽性的情況,實用性很強;分布式貝葉斯方法是傳統貝葉斯方法與網格環境相結合的產物,它將單點學習過程分布化和協同化,縮短了學習的時間,共享了學習的經驗。這兩種手段的結合,是在現有主流反垃圾郵件方法的基礎上的升華提高,具有實際應用價值。
綜上所述,反垃圾郵件網格通過分布式統計和分布式貝葉斯學習,利用分布互聯網里的千百萬臺主機協同工作來構建一道攔截垃圾郵件的“天網”。該方法可以大大提高垃圾郵件的識別率,同時避免將合法郵件誤判為垃圾郵件,有可能使通過技術手段有效解決垃圾郵件問題成為現實。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄