近些年來,Twitter、Facebook等社交媒體蓬勃發(fā)展,為我們了解民眾的思想脈搏提供了重要的機遇,社交媒體還為防務(wù)、情報以及國土安全分析人員就潛在的危機提供了早期預(yù)警,但這其中包含的龐大數(shù)據(jù)量使人們難于處理和分析。從海量的數(shù)據(jù)噪音中提取出出有價值的情報是一項艱巨的任務(wù),需要一種自動化的解決方案。美軍與企業(yè)合作,在這方面取得了一定的進展。文章編譯如下:
社交媒體為我們了解民眾的思想脈搏提供了重要的機遇:人們對于事件的反應(yīng)、對于重要問題的意見、政治情緒、呼吁舉行抗議活動以及其他一些事情。社交媒體還為防務(wù)、情報以及國土安全分析人員就潛在的危機提供了早期預(yù)警,如下一次“阿拉伯之春”運動、軍事沖突或自然災(zāi)害。
如果最近發(fā)生了一次事件,居住在特定區(qū)域的人們因此對美國部隊心存不滿,則他們的憤怒或不滿情緒可能會隨時間的推移激化或平復(fù)。了解這種情緒起落的變化會有助于部隊提高自身的安全認識。
“我們當(dāng)中的大多數(shù)人通過觀看電視了解事件,可能認為情況還不至于那么糟糕,不過社交媒體可能會展現(xiàn)一些非常有影響力的個人的負面看法,他們會影響其他人的想法,”美國SAS公司聯(lián)邦國家安全小組主任麗貝卡?加西亞說,“如果我們不了解這種思想活動的軌跡,就有可能危及美國人員的安全。”
但這其中包含的龐大數(shù)據(jù)量使人們難于處理和分析。“此外,數(shù)據(jù)中噪聲的數(shù)量——手頭上與問題無關(guān)的信息——可能是驚人的,”Aptima公司分析、建模與仿真分部副總監(jiān)羅伯特?麥科馬克博士說。
從海量的噪音中清理出有價值的重要模因(meme,在諸如語言、觀念、信仰、行為方式等的傳遞過程中與基因在生物進化過程中所起的作用相類似的因素。譯者注)是一項艱巨的任務(wù)。由用戶生成的鋪天蓋地、可公開訪問的內(nèi)容,如源于Twitter、博客和許多在線交流的信息,需要一種自動化的解決方案。
引入先進的分析技術(shù)
這些技術(shù)會有助于人們從海量信息中找到重要主題和思想傾向,并且可以幫助一些人了解這些主題和傾向會對民眾造成何種影響。
社交媒體數(shù)據(jù)分析的全球性應(yīng)用有一些明顯案例,如去年在埃及和利比亞發(fā)生的眾所周知的事件,以及在日本和海地發(fā)生的自然災(zāi)害。全球第一條有關(guān)奧薩瑪?本?拉登在巴基斯坦的住所被攻破的消息就是由其鄰居通過微博公布的。社交媒體網(wǎng)絡(luò)對計劃周密的抗議、示威和行動提供了最早的現(xiàn)場報告。
“該技術(shù)有潛力利用互聯(lián)網(wǎng)上公開提供的海量信息,使得它對于社交媒體應(yīng)用特別有益,”諾思羅普?格魯曼信息系統(tǒng)公司地理空間業(yè)務(wù)開發(fā)總監(jiān)肖恩?萊烏評論道,“能夠就某一特定主題提煉具體信息,而不必費力埋頭于數(shù)PB(petabytes,1petabytes=1024TB,譯者注)的數(shù)據(jù),這顯著節(jié)約了大量時間,使最終用戶可以把他們的時間集中于具體的任務(wù)上,而不是集中于數(shù)據(jù)挖掘上。”
這樣一種分析技術(shù)必須能夠有效管理各種形式的社交媒體數(shù)據(jù),無論是結(jié)構(gòu)化的、非結(jié)構(gòu)化的/半結(jié)構(gòu)化的,包括視頻和音頻內(nèi)容。
“它同樣適用于軍事和情報應(yīng)用——以各種方式,從軍隊征兵工作人員開始,他們會找到有關(guān)征兵重要問題的公開數(shù)據(jù);一直到前線士兵想要了解在特定城鎮(zhèn)或地區(qū),民眾對于美軍存在現(xiàn)在有什么樣的情緒,”MicroTech公司總裁兼首席執(zhí)行官托尼?希門尼斯說,“在實際應(yīng)用之前,需要對社交媒體數(shù)據(jù)進行分析,這通常超出了個人甚至是一個團隊的能力。”
解決這個問題需要篩選大量數(shù)據(jù)以得到可操作的信息。
除了用于作戰(zhàn)的公開或外部交流的信息,內(nèi)部行動也能從社交媒體分析中獲益。皮尤研究中心開展的“互聯(lián)網(wǎng)與美國人生活項目”目前顯示:有65%的成年互聯(lián)網(wǎng)用戶正在使用社交網(wǎng)站。
“軍事行動是一項非常龐大的活動,當(dāng)然可以納入社交媒體與軍人保持接觸并使之參與行動,現(xiàn)在這種現(xiàn)象已經(jīng)變得非常普遍,”希門尼斯評論道,“以正確的心態(tài)分析軍隊人員的關(guān)切、傾向和問題,可能會產(chǎn)生更高的效率并使任務(wù)勝利完成。”
因此,社交媒體分析還為提高效率和支持作戰(zhàn)提供了又一種機遇,可以從豐富的公開數(shù)據(jù)中發(fā)現(xiàn)信息。
搜索算法
目前有許多公司針對社交媒體提供了先進的分析技術(shù)。
例如,諾思魯普?格魯曼公司提供的一套工具利用算法通過對公開的信息進行搜索,把數(shù)據(jù)的范圍縮小到預(yù)定的主題、類別和其他標準上。“然后對這些信息進行排序,為終端用戶提供相關(guān)、有針對性可管理的數(shù)據(jù),”萊烏說。
諾斯魯普?格魯曼公司的工具旨在提醒官員注意可能的危機、沖突和社會傾向。
Aptima公司正在研究一項技術(shù),稱為信息發(fā)展流行模型(EpidemiologicalModeling of the Evolution of Messages,E-MEME),它把自然語言處理(natural language processing,NLP)與流行建模核心概念結(jié)合在一起。
信息發(fā)展流行模型采用自然語言處理技術(shù),篩選大量的互聯(lián)網(wǎng)數(shù)據(jù)資源和文件,從博客、新聞?wù)军c和實時社交平臺(如Twitter)中提取重要的認知和傳播主題。這些技術(shù)用于描述并量化所討論的主題,如“抗議”和“選舉”等。
數(shù)學(xué)流行模型描繪了這些思想是如何在各個地區(qū)的民眾中隨時間的推移傳播和蔓延的。“流行學(xué)為我們提供了理解這一問題的一個出發(fā)點,以及正規(guī)化分析數(shù)據(jù)豐富的模型與技巧,”麥科馬克說。
麥科馬克解釋說,在一定層次上,信息發(fā)展流行模型的目的是根據(jù)現(xiàn)在社交媒體、博客和新聞上正在發(fā)生的事件,就有價值的當(dāng)前形勢,利用更好的信息提供情報分析。“例如,如果民眾對于抗議這一話題感興趣,信息發(fā)展流行模型將通過從幾個維度仔細劃分,提供媒體中有關(guān)這一主題的相關(guān)信息,如位置、團隊或媒體類型,”他說。
此外,信息發(fā)展流行模型還將提供這一主題以往的發(fā)展趨勢,例如,使分析人員能夠清楚在特定的某個地點,人們談?wù)摗翱棺h”這一話題的興趣正在逐漸濃厚。“除此之外,基于模型的流行學(xué)還能使我們根據(jù)歷史數(shù)據(jù)和其他因素評估不同人群對于各種認知的易感程度,”他說。
同時,情報分析人員還能開展“假設(shè)情況”分析,如評估一種認識傳播的可能性,或特定地區(qū)的人群接受一種思想的可能性。
MicroTech公司提供解決方案以建立有效的社交媒體實踐,該公司發(fā)現(xiàn)“假設(shè)情況分析”有助于以幾種不同的規(guī)模和配置提供可擴展的社交媒體解決方案,使用不同的硬件/軟件應(yīng)用程序,解決政府機構(gòu)廣泛的需要與需求。
“Social Recon Mobile是MicroTech公司研發(fā)的一種解決方案,它提供了必要的社交媒體功能,把軟件和硬件都包含在一種便攜式設(shè)備內(nèi),易于迅速部署,并具備幾乎是實時的社交媒體挖掘功能,”希門尼斯說。
Social Recon MicroPodd包括一套附加移動MicroPodd組件,能提供更大的存儲容量和更多功能。這種選項為現(xiàn)存的基礎(chǔ)設(shè)施提供了一種插件解決方案。
“分析人員可以從他們當(dāng)前的位置和工作站很方便地監(jiān)控并跟蹤用戶認為重要的事情,”他說。
Social Recon MicroCenter是一項永久解決方案,根據(jù)現(xiàn)地情況定制,具備額外的社交挖掘功能,可以對特定社交媒體的整個社區(qū)進行深入挖掘。
“隨著數(shù)據(jù)中心不斷虛擬化、一體化并更具效率,這種選擇為那些利用自身設(shè)施創(chuàng)建社交媒體功能的人們提供了一種決定性的競爭優(yōu)勢,”希門尼斯說。
托管解決方案
最后,社交媒體服務(wù)(Social Media as a Service,SMaaS)提供了一種與MicroTech公司其他解決方案不同的托管解決方案。社交媒體服務(wù)可以根據(jù)機構(gòu)和功能的需要量身定制,它針對所有特定的主題和關(guān)心的問題深入搜尋和探索,實施概念分析、目標分析和/或系統(tǒng)報警。
“如果你正朝著一種信息技術(shù)管理策略努力,希望得到最大程度的靈活性;或者不能在新設(shè)備上進行投資時,則它尤其適用,”希門尼斯說,“我們提供分析服務(wù),目的是在每日、每周或每月報告的基礎(chǔ)上,就你感興趣的主題或問題提供一份詳細的電子化描述。”
MicroTech公司Social Recon產(chǎn)品全部采用數(shù)字格式管理并解析數(shù)據(jù)。這包括不需要手工標記完成的主題和相關(guān)搜索,并能克服由于全球依存度日益提高帶來的語義和語言問題。“例如,人們常常使用不同的詞語(不同的語義和語法)表達相同的想法。”希門尼斯解釋說。
在社交媒體環(huán)境,如Twitter中,這個問題變得尤為明顯,Twitter中使用的語言更加口語化,充滿了日常的表達、俚語和不同的情感意味,如諷刺、興奮和失望,并且表達得非常簡單,難以辨別說話的背景。在多語言國家,當(dāng)在線數(shù)據(jù)采用幾種語言時,這個問題可能會變得極具挑戰(zhàn)性。
“我們的Social Recon分析工具提供的結(jié)果是可被理解和可操作的,”他補充道。
這些工具能夠直接提供渠道,與鼓動或煽動民眾的人員聯(lián)系,還能通過其發(fā)表意見使用的社交媒體工具與他們接觸,或者在社交網(wǎng)站上與他們就某一個主題展開討論。
“同樣,利用我們的Social Recon工具,也可以聯(lián)絡(luò)那些提出不正確或負面評論的人士,并且無論出現(xiàn)哪些話題,都可以展開對話,”希門尼斯說。
這套工具還可以確定哪些地方流行的觀點不太正確或正在傳播錯誤的信息。
SAS公司的社交媒體分析(Social MediaAnalytics,SMA)提供了很多途徑,使人們可以察看特定感興趣的話題,剔除不相關(guān)的信息,并且囊括個人和數(shù)以百萬計的人員的情緒。這套工具可以從博客、Twitter、Facebook或其他有價值的公開的社交媒體網(wǎng)站上提取信息。它可以由分析人員設(shè)定,查詢特定的主題或關(guān)鍵詞,而且這套工具可以全天候工作。
“當(dāng)分析人員開始工作時,他們會得到最新的信息,并且全天持續(xù)更新,”加西亞說。
由SAS公司提供的解決方案還允許多個個體在相似感興趣的領(lǐng)域內(nèi)交換數(shù)據(jù)。隨著分析人員掌握接收到的信息是更貼近自身的需要,還是與他們所需要的信息有所偏離,他們可以在工具運行過程中進一步優(yōu)化搜索方法,對接收到數(shù)據(jù)實施進一步的管理。
“這套工具還有能力確定信息源的位置,”加西亞補充說,“SAS公司正在與AGI公司一起,在確認社交媒體用戶位置的基礎(chǔ)上,為用戶提供地理位置信息。這對于作戰(zhàn)人員來說具有重要意義,可用于評估部隊威脅,或營救陷于困境而無法利用傳統(tǒng)溝通渠道的人員。”
SAS可以分析28種本土語言的感情色彩,第29種語言——波斯語目前正在進行驗收測試。這些語言不會被翻譯成英語,而是以它們的母語形式進行評估,以提供更準確的情緒評分。“這對于評估可能的威脅非常關(guān)鍵,因為情緒的變化可能是細微的,”加西亞解釋說。
SAS正在與現(xiàn)有用戶合作,為那些需要得知有細微變化發(fā)生的用戶創(chuàng)建情緒狀態(tài)。
“對于一次單一的事件,一個人很難從非常積極的情緒變得非常消極,”她評論道,“因此情緒狀態(tài)可以針對一個主題,在一段時間內(nèi)評估目標對象觀點或情感的變化。這有助于別國人員更好地了解哪些行為或活動可以在本土民眾中產(chǎn)生一種積極或消極反應(yīng)。”
這樣做的目的是使軍隊成員在更深入了解平民文化,或在更深入了解他們過去對于與軍隊互動反應(yīng)的基礎(chǔ)上,與他們開展積極互動。
開源陷阱
開源數(shù)據(jù)的首要優(yōu)勢在于它的刷新速度。新的信息不斷涌現(xiàn)。同樣的道理,海量的可用數(shù)據(jù)也是一項挑戰(zhàn)。
“雖然正在研究使最終用戶面對的數(shù)據(jù)‘瘦身’的技術(shù),但每年的數(shù)據(jù)集成倍增長,所以,這些技術(shù)必須相應(yīng)做出調(diào)整,以跟上數(shù)據(jù)量增長的速度,”萊烏說。
此外,鑒于用戶在獲取技術(shù)上存在不對等,相對于文字信息,社交媒體未必會提供大范圍民眾有代表性的圖片。業(yè)界目前正在討論的一些具體問題包括多國外語分析,以及特定類型社交媒體的獨特特質(zhì)。
關(guān)于外語分析,用于推導(dǎo)主題的統(tǒng)計技術(shù)的基本水平是獨立于目標對象的語言。
“不過,在處理外語時肯定會有難題出現(xiàn),”麥科馬克說,“谷歌翻譯和雅虎!寶貝魚(Yahoo! BabelFish)之類的工具能夠就討論的問題為用戶提供一些粗略的認知,但不能表達更多更地道的語言上的細微差別。”
在整個自然語言處理界,這是一個較為活躍的研究領(lǐng)域。
媒體中拼寫的不同和詞匯的不同形式也帶來了巨大的挑戰(zhàn)。尤其是在Twitter中,錯誤的拼寫、縮略語和文體的拼寫變化,所有這些都使得標準的規(guī)范化技術(shù)難于實施。在這種情況下,自動化的集群技術(shù)變得十分必要。
加西亞補充說這當(dāng)中還存在其他問題,如個體如何在博客、Twitter或其他網(wǎng)站上創(chuàng)建新的身份。個人或團體可以在保密設(shè)置的基礎(chǔ)上隱藏他們的身份和位置信息。
“任何人都可以就其他人講述的事件或提出的主題發(fā)表自己的見解,但這些事件或見解未必都是準確或真實的,”她說,“如果發(fā)現(xiàn)這些評論甚至有部分失實,就需要對這些信息的來源進行查證并認真評估它可能造成的影響。”
在感知方面也存在挑戰(zhàn)。許多個體可能會目擊事件的發(fā)生,并且會基于他們的觀察角度和個人偏見使得感知非常不同。
加西亞指出,由于社交媒體是一種論壇,對于偏見、觀察角度或有意誤導(dǎo)沒有真正的過濾器,因此必須謹慎使用這樣一種強有力的工具。分析人員必須在自身經(jīng)驗、理解力和所學(xué)知識的基礎(chǔ)上做出有價值的判斷。社交媒體只是一種數(shù)據(jù)源,它并不比其他單一的數(shù)據(jù)來源更為精確。由于個體提供消息的可靠性無法保證,它可能更不明確。
“由于提供信息的人可能是這個世界上的任何一員,評論的真實性也如同這個星球上個人的誠實度一樣,存在很大的差異,因此仍要依賴于我們擁有正確解讀消息的能力,”她說。
未來的發(fā)展方向
萊烏預(yù)測,在下一個5年,隨著越來越多的用戶使用社交媒體開發(fā)作為一種信息搜集與分析的可行手段,會有大量新的工具和方法出現(xiàn),以便處理不斷增長的數(shù)據(jù)集。
希門尼斯聲稱,移動和社交應(yīng)用程序?qū)⒗^續(xù)增加,功能得到擴充的設(shè)備將繼續(xù)普及。
“實用功能會得到增強,如地理知識的補充——例如,你可以拿著自己的手機查看在一個特定方向上有哪些商店、飯店和/或設(shè)施——已經(jīng)出現(xiàn),但是隨著產(chǎn)業(yè)的發(fā)展與成熟,它們將變得更加準確與實用,”他說。
社交媒體也開始滲透到企業(yè)。各行機構(gòu)正在對內(nèi)并對外應(yīng)用社交工具,以更好地了解并打破阻礙經(jīng)濟增長與效率提高的孤島。經(jīng)歷了人口結(jié)構(gòu)變化并轉(zhuǎn)向年輕一代的機構(gòu)已經(jīng)接受了此類工具,將其作為一種參與途徑和溝通方式,這些機構(gòu)中的個體已經(jīng)適應(yīng)并理解了這種做法。
麥科馬克主張,隨著美國國防部和情報機構(gòu)轉(zhuǎn)向更多的開放資源分析,對于先進分析能力的需求將會增加,這些能力能夠解答一些戰(zhàn)略和戰(zhàn)術(shù)問題。
“在技術(shù)方面,我們將開始看到使用分布式和云計算技術(shù)處理大量實時流數(shù)據(jù)逐漸增多,”麥科馬克補充道,“從統(tǒng)計語言模型到動態(tài)趨勢分析模型,如何順應(yīng)分析技術(shù)的發(fā)展,對于這些環(huán)境,可能會是一個活躍的研究領(lǐng)域。”
最后,由于新生分析技術(shù)出現(xiàn),當(dāng)前工作大多集中于對社交媒體事件的回顧性分析上(如“阿拉伯之春”)。
“未來5年這些工具將經(jīng)歷真正的考驗,我們將看到在事件演變成昨天的新聞之前,它們能否有效預(yù)測社交媒體的走向,”他說。
來自: 軟件定義世界(SDX)