近些年來,Twitter、Facebook等社交媒體蓬勃發展,為我們了解民眾的思想脈搏提供了重要的機遇,社交媒體還為防務、情報以及國土安全分析人員就潛在的危機提供了早期預警,但這其中包含的龐大數據量使人們難于處理和分析。從海量的數據噪音中提取出出有價值的情報是一項艱巨的任務,需要一種自動化的解決方案。美軍與企業合作,在這方面取得了一定的進展。文章編譯如下:
社交媒體為我們了解民眾的思想脈搏提供了重要的機遇:人們對于事件的反應、對于重要問題的意見、政治情緒、呼吁舉行抗議活動以及其他一些事情。社交媒體還為防務、情報以及國土安全分析人員就潛在的危機提供了早期預警,如下一次“阿拉伯之春”運動、軍事沖突或自然災害。
如果最近發生了一次事件,居住在特定區域的人們因此對美國部隊心存不滿,則他們的憤怒或不滿情緒可能會隨時間的推移激化或平復。了解這種情緒起落的變化會有助于部隊提高自身的安全認識。
“我們當中的大多數人通過觀看電視了解事件,可能認為情況還不至于那么糟糕,不過社交媒體可能會展現一些非常有影響力的個人的負面看法,他們會影響其他人的想法,”美國SAS公司聯邦國家安全小組主任麗貝卡?加西亞說,“如果我們不了解這種思想活動的軌跡,就有可能危及美國人員的安全。”
但這其中包含的龐大數據量使人們難于處理和分析。“此外,數據中噪聲的數量——手頭上與問題無關的信息——可能是驚人的,”Aptima公司分析、建模與仿真分部副總監羅伯特?麥科馬克博士說。
從海量的噪音中清理出有價值的重要模因(meme,在諸如語言、觀念、信仰、行為方式等的傳遞過程中與基因在生物進化過程中所起的作用相類似的因素。譯者注)是一項艱巨的任務。由用戶生成的鋪天蓋地、可公開訪問的內容,如源于Twitter、博客和許多在線交流的信息,需要一種自動化的解決方案。
引入先進的分析技術
這些技術會有助于人們從海量信息中找到重要主題和思想傾向,并且可以幫助一些人了解這些主題和傾向會對民眾造成何種影響。
社交媒體數據分析的全球性應用有一些明顯案例,如去年在埃及和利比亞發生的眾所周知的事件,以及在日本和海地發生的自然災害。全球第一條有關奧薩瑪?本?拉登在巴基斯坦的住所被攻破的消息就是由其鄰居通過微博公布的。社交媒體網絡對計劃周密的抗議、示威和行動提供了最早的現場報告。
“該技術有潛力利用互聯網上公開提供的海量信息,使得它對于社交媒體應用特別有益,”諾思羅普?格魯曼信息系統公司地理空間業務開發總監肖恩?萊烏評論道,“能夠就某一特定主題提煉具體信息,而不必費力埋頭于數PB(petabytes,1petabytes=1024TB,譯者注)的數據,這顯著節約了大量時間,使最終用戶可以把他們的時間集中于具體的任務上,而不是集中于數據挖掘上。”
這樣一種分析技術必須能夠有效管理各種形式的社交媒體數據,無論是結構化的、非結構化的/半結構化的,包括視頻和音頻內容。
“它同樣適用于軍事和情報應用——以各種方式,從軍隊征兵工作人員開始,他們會找到有關征兵重要問題的公開數據;一直到前線士兵想要了解在特定城鎮或地區,民眾對于美軍存在現在有什么樣的情緒,”MicroTech公司總裁兼首席執行官托尼?希門尼斯說,“在實際應用之前,需要對社交媒體數據進行分析,這通常超出了個人甚至是一個團隊的能力。”
解決這個問題需要篩選大量數據以得到可操作的信息。
除了用于作戰的公開或外部交流的信息,內部行動也能從社交媒體分析中獲益。皮尤研究中心開展的“互聯網與美國人生活項目”目前顯示:有65%的成年互聯網用戶正在使用社交網站。
“軍事行動是一項非常龐大的活動,當然可以納入社交媒體與軍人保持接觸并使之參與行動,現在這種現象已經變得非常普遍,”希門尼斯評論道,“以正確的心態分析軍隊人員的關切、傾向和問題,可能會產生更高的效率并使任務勝利完成。”
因此,社交媒體分析還為提高效率和支持作戰提供了又一種機遇,可以從豐富的公開數據中發現信息。
搜索算法
目前有許多公司針對社交媒體提供了先進的分析技術。
例如,諾思魯普?格魯曼公司提供的一套工具利用算法通過對公開的信息進行搜索,把數據的范圍縮小到預定的主題、類別和其他標準上。“然后對這些信息進行排序,為終端用戶提供相關、有針對性可管理的數據,”萊烏說。
諾斯魯普?格魯曼公司的工具旨在提醒官員注意可能的危機、沖突和社會傾向。
Aptima公司正在研究一項技術,稱為信息發展流行模型(EpidemiologicalModeling of the Evolution of Messages,E-MEME),它把自然語言處理(natural language processing,NLP)與流行建模核心概念結合在一起。
信息發展流行模型采用自然語言處理技術,篩選大量的互聯網數據資源和文件,從博客、新聞站點和實時社交平臺(如Twitter)中提取重要的認知和傳播主題。這些技術用于描述并量化所討論的主題,如“抗議”和“選舉”等。
數學流行模型描繪了這些思想是如何在各個地區的民眾中隨時間的推移傳播和蔓延的。“流行學為我們提供了理解這一問題的一個出發點,以及正規化分析數據豐富的模型與技巧,”麥科馬克說。
麥科馬克解釋說,在一定層次上,信息發展流行模型的目的是根據現在社交媒體、博客和新聞上正在發生的事件,就有價值的當前形勢,利用更好的信息提供情報分析。“例如,如果民眾對于抗議這一話題感興趣,信息發展流行模型將通過從幾個維度仔細劃分,提供媒體中有關這一主題的相關信息,如位置、團隊或媒體類型,”他說。
此外,信息發展流行模型還將提供這一主題以往的發展趨勢,例如,使分析人員能夠清楚在特定的某個地點,人們談論“抗議”這一話題的興趣正在逐漸濃厚。“除此之外,基于模型的流行學還能使我們根據歷史數據和其他因素評估不同人群對于各種認知的易感程度,”他說。
同時,情報分析人員還能開展“假設情況”分析,如評估一種認識傳播的可能性,或特定地區的人群接受一種思想的可能性。
MicroTech公司提供解決方案以建立有效的社交媒體實踐,該公司發現“假設情況分析”有助于以幾種不同的規模和配置提供可擴展的社交媒體解決方案,使用不同的硬件/軟件應用程序,解決政府機構廣泛的需要與需求。
“Social Recon Mobile是MicroTech公司研發的一種解決方案,它提供了必要的社交媒體功能,把軟件和硬件都包含在一種便攜式設備內,易于迅速部署,并具備幾乎是實時的社交媒體挖掘功能,”希門尼斯說。
Social Recon MicroPodd包括一套附加移動MicroPodd組件,能提供更大的存儲容量和更多功能。這種選項為現存的基礎設施提供了一種插件解決方案。
“分析人員可以從他們當前的位置和工作站很方便地監控并跟蹤用戶認為重要的事情,”他說。
Social Recon MicroCenter是一項永久解決方案,根據現地情況定制,具備額外的社交挖掘功能,可以對特定社交媒體的整個社區進行深入挖掘。
“隨著數據中心不斷虛擬化、一體化并更具效率,這種選擇為那些利用自身設施創建社交媒體功能的人們提供了一種決定性的競爭優勢,”希門尼斯說。
托管解決方案
最后,社交媒體服務(Social Media as a Service,SMaaS)提供了一種與MicroTech公司其他解決方案不同的托管解決方案。社交媒體服務可以根據機構和功能的需要量身定制,它針對所有特定的主題和關心的問題深入搜尋和探索,實施概念分析、目標分析和/或系統報警。
“如果你正朝著一種信息技術管理策略努力,希望得到最大程度的靈活性;或者不能在新設備上進行投資時,則它尤其適用,”希門尼斯說,“我們提供分析服務,目的是在每日、每周或每月報告的基礎上,就你感興趣的主題或問題提供一份詳細的電子化描述。”
MicroTech公司Social Recon產品全部采用數字格式管理并解析數據。這包括不需要手工標記完成的主題和相關搜索,并能克服由于全球依存度日益提高帶來的語義和語言問題。“例如,人們常常使用不同的詞語(不同的語義和語法)表達相同的想法。”希門尼斯解釋說。
在社交媒體環境,如Twitter中,這個問題變得尤為明顯,Twitter中使用的語言更加口語化,充滿了日常的表達、俚語和不同的情感意味,如諷刺、興奮和失望,并且表達得非常簡單,難以辨別說話的背景。在多語言國家,當在線數據采用幾種語言時,這個問題可能會變得極具挑戰性。
“我們的Social Recon分析工具提供的結果是可被理解和可操作的,”他補充道。
這些工具能夠直接提供渠道,與鼓動或煽動民眾的人員聯系,還能通過其發表意見使用的社交媒體工具與他們接觸,或者在社交網站上與他們就某一個主題展開討論。
“同樣,利用我們的Social Recon工具,也可以聯絡那些提出不正確或負面評論的人士,并且無論出現哪些話題,都可以展開對話,”希門尼斯說。
這套工具還可以確定哪些地方流行的觀點不太正確或正在傳播錯誤的信息。
SAS公司的社交媒體分析(Social MediaAnalytics,SMA)提供了很多途徑,使人們可以察看特定感興趣的話題,剔除不相關的信息,并且囊括個人和數以百萬計的人員的情緒。這套工具可以從博客、Twitter、Facebook或其他有價值的公開的社交媒體網站上提取信息。它可以由分析人員設定,查詢特定的主題或關鍵詞,而且這套工具可以全天候工作。
“當分析人員開始工作時,他們會得到最新的信息,并且全天持續更新,”加西亞說。
由SAS公司提供的解決方案還允許多個個體在相似感興趣的領域內交換數據。隨著分析人員掌握接收到的信息是更貼近自身的需要,還是與他們所需要的信息有所偏離,他們可以在工具運行過程中進一步優化搜索方法,對接收到數據實施進一步的管理。
“這套工具還有能力確定信息源的位置,”加西亞補充說,“SAS公司正在與AGI公司一起,在確認社交媒體用戶位置的基礎上,為用戶提供地理位置信息。這對于作戰人員來說具有重要意義,可用于評估部隊威脅,或營救陷于困境而無法利用傳統溝通渠道的人員。”
SAS可以分析28種本土語言的感情色彩,第29種語言——波斯語目前正在進行驗收測試。這些語言不會被翻譯成英語,而是以它們的母語形式進行評估,以提供更準確的情緒評分。“這對于評估可能的威脅非常關鍵,因為情緒的變化可能是細微的,”加西亞解釋說。
SAS正在與現有用戶合作,為那些需要得知有細微變化發生的用戶創建情緒狀態。
“對于一次單一的事件,一個人很難從非常積極的情緒變得非常消極,”她評論道,“因此情緒狀態可以針對一個主題,在一段時間內評估目標對象觀點或情感的變化。這有助于別國人員更好地了解哪些行為或活動可以在本土民眾中產生一種積極或消極反應。”
這樣做的目的是使軍隊成員在更深入了解平民文化,或在更深入了解他們過去對于與軍隊互動反應的基礎上,與他們開展積極互動。
開源陷阱
開源數據的首要優勢在于它的刷新速度。新的信息不斷涌現。同樣的道理,海量的可用數據也是一項挑戰。
“雖然正在研究使最終用戶面對的數據‘瘦身’的技術,但每年的數據集成倍增長,所以,這些技術必須相應做出調整,以跟上數據量增長的速度,”萊烏說。
此外,鑒于用戶在獲取技術上存在不對等,相對于文字信息,社交媒體未必會提供大范圍民眾有代表性的圖片。業界目前正在討論的一些具體問題包括多國外語分析,以及特定類型社交媒體的獨特特質。
關于外語分析,用于推導主題的統計技術的基本水平是獨立于目標對象的語言。
“不過,在處理外語時肯定會有難題出現,”麥科馬克說,“谷歌翻譯和雅虎!寶貝魚(Yahoo! BabelFish)之類的工具能夠就討論的問題為用戶提供一些粗略的認知,但不能表達更多更地道的語言上的細微差別。”
在整個自然語言處理界,這是一個較為活躍的研究領域。
媒體中拼寫的不同和詞匯的不同形式也帶來了巨大的挑戰。尤其是在Twitter中,錯誤的拼寫、縮略語和文體的拼寫變化,所有這些都使得標準的規范化技術難于實施。在這種情況下,自動化的集群技術變得十分必要。
加西亞補充說這當中還存在其他問題,如個體如何在博客、Twitter或其他網站上創建新的身份。個人或團體可以在保密設置的基礎上隱藏他們的身份和位置信息。
“任何人都可以就其他人講述的事件或提出的主題發表自己的見解,但這些事件或見解未必都是準確或真實的,”她說,“如果發現這些評論甚至有部分失實,就需要對這些信息的來源進行查證并認真評估它可能造成的影響。”
在感知方面也存在挑戰。許多個體可能會目擊事件的發生,并且會基于他們的觀察角度和個人偏見使得感知非常不同。
加西亞指出,由于社交媒體是一種論壇,對于偏見、觀察角度或有意誤導沒有真正的過濾器,因此必須謹慎使用這樣一種強有力的工具。分析人員必須在自身經驗、理解力和所學知識的基礎上做出有價值的判斷。社交媒體只是一種數據源,它并不比其他單一的數據來源更為精確。由于個體提供消息的可靠性無法保證,它可能更不明確。
“由于提供信息的人可能是這個世界上的任何一員,評論的真實性也如同這個星球上個人的誠實度一樣,存在很大的差異,因此仍要依賴于我們擁有正確解讀消息的能力,”她說。
未來的發展方向
萊烏預測,在下一個5年,隨著越來越多的用戶使用社交媒體開發作為一種信息搜集與分析的可行手段,會有大量新的工具和方法出現,以便處理不斷增長的數據集。
希門尼斯聲稱,移動和社交應用程序將繼續增加,功能得到擴充的設備將繼續普及。
“實用功能會得到增強,如地理知識的補充——例如,你可以拿著自己的手機查看在一個特定方向上有哪些商店、飯店和/或設施——已經出現,但是隨著產業的發展與成熟,它們將變得更加準確與實用,”他說。
社交媒體也開始滲透到企業。各行機構正在對內并對外應用社交工具,以更好地了解并打破阻礙經濟增長與效率提高的孤島。經歷了人口結構變化并轉向年輕一代的機構已經接受了此類工具,將其作為一種參與途徑和溝通方式,這些機構中的個體已經適應并理解了這種做法。
麥科馬克主張,隨著美國國防部和情報機構轉向更多的開放資源分析,對于先進分析能力的需求將會增加,這些能力能夠解答一些戰略和戰術問題。
“在技術方面,我們將開始看到使用分布式和云計算技術處理大量實時流數據逐漸增多,”麥科馬克補充道,“從統計語言模型到動態趨勢分析模型,如何順應分析技術的發展,對于這些環境,可能會是一個活躍的研究領域。”
最后,由于新生分析技術出現,當前工作大多集中于對社交媒體事件的回顧性分析上(如“阿拉伯之春”)。
“未來5年這些工具將經歷真正的考驗,我們將看到在事件演變成昨天的新聞之前,它們能否有效預測社交媒體的走向,”他說。
來自: 軟件定義世界(SDX)