原題:大數據安全分析之三(可視化篇)
熟悉金字塔原理的人都了解一個事實,人腦的短期記憶最大能夠保持7個左右的元素,這意味著在分析工作中只能跟蹤非常有限的數據。
而可視化作為探索、展示和表達數據含義的一種方法,充分利用人的視覺系統特點(視覺是向大腦輸入信息最直接、數據帶寬最大的方式,每秒可以接收相當于100萬字符的信息),可以讓人在更高層面上去觀察和理解數據,可以比其它方式讓人們更好的利用大量的信息去思考更復雜的問題。可視化在分析復雜數據時必不可少,自然在大數據安全分析中同樣發揮了至關重要的作用。
筆者不是可視化方面的專家,也因深知其重要意義,因此以一孔之見希望能引發真正領域專家的珠玉之言,共同促進可視化技術在安全領域的應用。
一、網絡安全與可視化
在網絡安全領域,可視化做的不只是安全分析,市場營銷中就廣泛使用了可視化技術。在數據驅動安全的概念流行的今天,每個安全廠商都希望展現自己在數據方面的實力,無論數據的豐富程度或者及時性都可以通過可視化很好的展現出來,并且通過極具視覺沖擊力的形式,形成強悍的沖擊力。各個廠商自然紛紛效法,因此我們看到了TK做描述的一幕:“基本就是一張地圖,然后激光炮、氣功彈打來打去”。不能否定這是可視化的價值之一,在傳播上具備較大的優勢,否則你說你積累了多少數據、部署了多少采集器,這些數字往往只對極少數業內認識有意義,在大眾傳播上是不能和可視化帶來的直觀、豐富的體驗相比的。
但我們同時需要看到業內對可視化的最大期待是在安全分析上,希望通過可視化方式,讓大數據更好的被使用,為用戶產生價值,尤其是在急需APT或者定向攻擊檢測方案的今天??梢暬梢詰玫膱鼍?,其中包括了安全分析的各個階段:異常發現、誤報分析、調查取證、關聯分析等等。相對業界的期待,國際上有了一批做出一定成績的廠商,而國內這方面還沒有看到有所突破的產品,就其原因,大家都還在起步階段,而可視化技術和數據挖掘一樣,屬于跨領域的專業,但卻沒有向數據挖掘一樣被正確認識,我們可以看到安全領域的專家和數據挖掘算法、數理統計方面的團隊協同工作,但可視化在很多時候往往被認為是設計師和前端開發的工作,這種認識無疑是國內安全行業的可視化發展進展緩慢。
二、跨領域的知識結構
需要怎樣的知識,能夠在安全產品中更好的使用可視化方法,這里根據個人之前的工作中的摸索(主要在產品需求及設計方面),認為以下四方面的知識對設計工作有比較大的影響:
1. 需要掌握可視化的一些基本理論和方法:個人推薦一本Stephen Few的《Now You See It: Simple Visualization Techniques for Quantitative Analysis》雖然不是很新,但很多內容有針對性,值得一讀;另外邱南特的《數據之美:一本書學會可視化設計》作為可視化理念入門也非常不錯;
2. 深入了解安全分析人員的工作流程、方法:他們最經常的工作是什么,之前如何完成,他們認為怎樣的工具可以幫助他們更好的完成?;蛘哌€有一種選擇,讓自己成為一個安全分析師,設身處地的想一下,自己需要怎樣的工具來幫助自己更好的完成工作。
3. 對已有安全分析類產品的剖析:我就曾經從對Splunk和Palantir的分析中得到很多啟發,而今年以來這方面的國際廠商更是越發多了,有機會思考一下他們的設計邏輯對提升產品感覺非常有幫助;需要注意的是要剖析同類的產品,可視化的在某些領域的經驗和安全分析領域是有很大不同的,如果不區分具體場景,而參考一些其它領域的可視化成功經驗,也許會走入誤區。
4. 從相關行業獲取靈感:安全分析和情報、刑偵機構的情報分析有極高的相似性,網絡安全領域的安全分析是可以借鑒他們所使用的工具和理念。例如幾年前被廣泛使用在警務、情報、安全組織的可視化分析調查軟件i2,即使現在軟件架構上已經過時了,但分析的場景及業務邏輯等都有很好的借鑒。同時如果能夠對情報分析中的結構化分析方法有一定了解,相信對思路拓展就有更高的價值。
這是一個相對全面的內容了,對應很多人來講難以快速掌握,那么最小程度上,應該對第2、3兩點有充分的了解。
三、兩個成功要素
學習和實踐的過程總是相互交織在一起,談完了需要學習的領域知識,緊接著就應該是實踐問題。總結個人參與的項目,發現有兩個關鍵點,如果能夠牢牢把握住,相對就可以事倍功半。而這兩點分別是以業務為中心和提供良好的交互操作。
一:以業務為中心
這里的業務無疑指的是我們在安全分析過程中,希望用可視化解決怎樣的問題,以及需要怎樣的可視化方式。可視化不只是采用漂亮的圖形講數據展示出來,它更需要解決實際問題。要做到這點可以采用以下過程方法:
1. 首先明確業務角度需要了解什么
業務需求方面的內容,在之前的文章《大數據安全分析—分析篇》中已經有了討論,可以參考那篇文章,這里不再重復。
2. 其次要研究確定相關的數據及數據間的關系
這是可視化設計中的難點,近乎于靈感、經驗和跨領域知識(可視化、安全知識、結構分析等)的綜合能力,在掌握了基本技能后,主要的差異就是從這里表現出來的。這里舉一個Splunk中的簡單圖表設計為例,給予說明。先看下圖:
這張表是設計用來快速識別誤報及需要優先處理的報警的,采用的是典型的TOPN 方式。不難發現這個TOP攻擊的表要比我們常見的多了攻擊源和目的的計數,因為產生報警數量特別巨大的簽名可能是誤報,也可能是需要優先處理的,單純從報警數量上難以做判斷,這里加入源和目的的計數,就可以進行初步的判斷:
數量較少的主機產生了大量報警,這些主機更有必要進行調查;
正常流量相關活動通常分布在許多主機間,也就是說生成事件的源主機數如果很高,有很大可能,這種事件屬于正常網絡使用;
這樣的設計,不是對分析人員的工作痛點有足夠了解,在安全知識上有足夠積累,并進行了深入思考和開拓創新,難以做到。
3. 最后根據數據的關系確定使用的可視化方式
這個方面的知識比較成熟,各種資料和研究各種可視化方法的用途有充分的研究,就如下面從IBM的《Choosing a successful structure for your visualization》一文截取的圖表:
需要說明的是這個表格的圖表類型并不完整,并且可視化方法中除了圖類型的選擇外,還需要考慮顏色、線型、大小、形狀等,在需要的時候還可以綜合在一個設計中使用多個類型的圖表。感興趣的人可以去深入學習,我前面推薦的《Now You See It》就有更詳細的論述。
以業務為中心,并不能保障設計出杰出的可視化產品,但可以保證走在正確的道路上,避免走彎路,如:單純的考慮數據呈現而忽略其價值和內在關系,一味追求設計包含的更大的數據量、只愿意使用獨特、復雜的圖形方式等等,這些都可能造成產品價值、可用性方面的問題。
二:交互操作
在可視化相關的文章中,樹圖的發明者,本-施奈德曼教授在其論文《眼見為實》(The Eyes Have It)中這句話最經常被引用“先總覽,再縮放并篩選,然后按需尋找細節”,這句話在說明可視化中典型交互模式的同時也表明了分析需要良好的交互操作的。 Raffael Marty (國際權威的安全數據分析和應用安全可視化專家之一,安天組織的ISF2014中做過首發演講)對這個模型做了形象化的展示:
我們需要考慮到界面對這樣的操作模型有良好的支持,可以讓分析人員很自如的觀察、縮放、篩選并查看細節,而不因為界面操作的問題打亂其分析思路。
同時也需要考慮使用中的涉及到的相關任務,如:
·確定是誤報后,是否可以提供快速處理機制
·狩獵中發現的線索,如何快速升級到事件
·調查期間的線索如何匯集和管理
·… …
總的來說,只有提供了高度可交互操作的安全分析平臺,才是一個具備高度可用性的產品,才可以數十倍的提高分析人員的效率。
小結
可視化在安全分析產品中的重要性毋庸置疑,個人甚至認為是高于數據挖掘的,是一個非常重要但沒有被很好重視的領域。由于個人工作經歷和所學限制,這篇文章內容更偏產品管理和設計方面,但也希望不止這兩方面的人看到它,也許是開發工程師,也許是管理者,更有可能是安全響應分析人員,希望能了解從你們角度如何看這個問題,等待大家的意見。
參考資料
· 邱南特:《數據之美:一本書學會可視化設計》
· IBM:《Choosing a successful structure for your visualization》
· http://www.splunk.com
· http://pixlcloud.com
*本文作者:ZenMind,來自:FreeBuf黑客與極客