
2014年8月3日,云南魯?shù)榘l(fā)生6.5級(jí)地震,造成617人死亡、112人失蹤、3143人受傷的重點(diǎn)傷害,這是繼2008年汶川地震、2010年玉樹地震之后的又一次有重大人員傷亡的地震災(zāi)害,其給社會(huì)生命財(cái)產(chǎn)造成的巨大損害讓人們記憶猶新。面對(duì)地震、洪澇、暴雨等災(zāi)害的襲擾,我們是否應(yīng)該坐以待斃? 發(fā)生重特大自然災(zāi)害時(shí),及時(shí)有效地采取救災(zāi)措施至關(guān)重要,這其中獲取的災(zāi)情數(shù)據(jù)和分析是決定救災(zāi)措施是否有效的關(guān)鍵。然而現(xiàn)實(shí)是,災(zāi)區(qū)現(xiàn)場(chǎng)實(shí)時(shí)信息紛繁復(fù)雜且高度動(dòng)態(tài)變化,人工災(zāi)情數(shù)據(jù)統(tǒng)計(jì)在客觀上存在極大困難,并且人工災(zāi)情數(shù)據(jù)統(tǒng)計(jì)存在著數(shù)據(jù)量小、時(shí)效性弱的缺點(diǎn),這種災(zāi)情數(shù)據(jù)對(duì)達(dá)到救災(zāi)預(yù)期有第一定的局限性。在數(shù)據(jù)成為信息時(shí)代的基礎(chǔ)背景下,如何利用災(zāi)情數(shù)據(jù)促進(jìn)防災(zāi)減災(zāi)工作值得政府部門思考。
網(wǎng)絡(luò)大數(shù)據(jù)如何運(yùn)用于防災(zāi)減災(zāi)?
互聯(lián)網(wǎng)技術(shù)的創(chuàng)新和發(fā)展實(shí)現(xiàn)了網(wǎng)絡(luò)信息分享的便捷性和數(shù)據(jù)傳播的海量化,僅依靠這兩種特性就促進(jìn)了自媒體的空前繁榮,使網(wǎng)絡(luò)大數(shù)據(jù)變得更加受重視。一方面,信息實(shí)時(shí)交互便捷、及時(shí)和低成本充分調(diào)動(dòng)了網(wǎng)民參與的積極性,網(wǎng)民們不再滿足于只做社會(huì)事務(wù)的旁觀者,而是借助網(wǎng)絡(luò)枳極分享及參與各項(xiàng)社會(huì)事務(wù)。他們?cè)谖⒉⑽⑿拧⒉┛?、播客、維基、在線論壇等自媒體平臺(tái),通常以文本、圖像、音樂(lè)和視頻等形式來(lái)分享自己意見(jiàn)、見(jiàn)解、經(jīng)驗(yàn)和觀點(diǎn),或者只是單純的事實(shí)反饋。這些傳播于網(wǎng)絡(luò)的信息數(shù)據(jù)成了網(wǎng)絡(luò)大數(shù)據(jù)重要部分,在某些環(huán)境中對(duì)于事件情報(bào)分析有無(wú)可比擬的作用。
拿地震災(zāi)害來(lái)說(shuō),地震發(fā)生后,身在災(zāi)區(qū)的每個(gè)人都有可能成為一名災(zāi)情預(yù)報(bào)員,這時(shí)關(guān)于地震事實(shí)、震感強(qiáng)度、現(xiàn)場(chǎng)情況、地震時(shí)間、破壞程度、危機(jī)預(yù)警、傷亡情況,避難場(chǎng)所、請(qǐng)求救援、尋找親人、需求物質(zhì)、救災(zāi)效果評(píng)估、救災(zāi)進(jìn)度看法、救災(zāi)意見(jiàn)等反映災(zāi)區(qū)災(zāi)情的信息數(shù)據(jù)隨處可見(jiàn),這些信息數(shù)據(jù)以一種沒(méi)有提前規(guī)劃卻及時(shí)有效的方式在網(wǎng)絡(luò)上分享和傳播,這些海量文本、數(shù)據(jù)、視頻、音頻、圖片信息內(nèi)容之間上下呼應(yīng),相互關(guān)聯(lián),由此產(chǎn)生了地震災(zāi)情大數(shù)據(jù)。作為救災(zāi)指揮部門,則可以通過(guò)收集這些海量數(shù)據(jù)進(jìn)行分類聚類分析,將災(zāi)情大數(shù)據(jù)化繁為簡(jiǎn),從海量、分散、實(shí)時(shí)變化的災(zāi)情數(shù)據(jù)中挖掘出有價(jià)值的信息,如研判出震級(jí)、區(qū)域?yàn)?zāi)情等級(jí)、救災(zāi)物質(zhì)需求區(qū)域分布狀況、人員傷亡情況、救災(zāi)效果評(píng)估等情報(bào),為救災(zāi)防災(zāi)減災(zāi)工作的有效推進(jìn)提供指導(dǎo),減少因?yàn)?zāi)情不準(zhǔn)造成的救災(zāi)人員、物質(zhì)分配浪費(fèi)的現(xiàn)象。
例如2008年汶川地震時(shí),網(wǎng)絡(luò)上便迅速匯集了來(lái)自全國(guó)各個(gè)角落的描述震感的帖子(含時(shí)間、空間和震感描述的信息),據(jù)樂(lè)思網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的采集數(shù)據(jù)顯示,當(dāng)時(shí)有關(guān)地震描述的帖子和博文超過(guò)100萬(wàn)條,地震10分鐘后網(wǎng)友關(guān)于震感強(qiáng)度描述的貼文大量出現(xiàn)。通過(guò)網(wǎng)民群體的自查,迅速將震中鎖定到四川綿陽(yáng)附近,從地震感知、信息辨識(shí)、信息分類到確定震中和災(zāi)情,均在很短時(shí)間內(nèi)同步完成,比中國(guó)地震局和政府公布信息要快速和有效得多。而在救災(zāi)過(guò)程中,有一名女大學(xué)生在網(wǎng)絡(luò)上發(fā)布了一條非常有價(jià)值的空降坐標(biāo)信息——這個(gè)位置原本是打算修建大禹祭壇的地方,非常適合直升機(jī)空降,為使這條信息不被淹沒(méi),大量網(wǎng)民持續(xù)不斷地自愿投入時(shí)間和精力來(lái)“頂”這份帖子,終使其為大眾所關(guān)注,引導(dǎo)了相關(guān)救災(zāi)行動(dòng)。
這一不自覺(jué)應(yīng)用在2010年青海玉樹地震和2013年四川蘆山強(qiáng)烈地震災(zāi)難中,表現(xiàn)得更為充分。當(dāng)時(shí)新浪、騰訊等微博客上每天都涌現(xiàn)出海量災(zāi)情、救助需求、捐款等信息,有些網(wǎng)友甚至專門制作可視化地圖來(lái)展示災(zāi)情現(xiàn)狀。百度、谷歌、360、搜狐、人人網(wǎng)等在蘆山地震發(fā)生后第二天,便相繼推出了尋親與報(bào)平安的尋人平臺(tái),網(wǎng)友通過(guò)這些平臺(tái)發(fā)布尋親信息,這很好幫助了救災(zāi)部門統(tǒng)計(jì)災(zāi)區(qū)人員傷亡情、失蹤情況。而在防災(zāi)層面上,發(fā)生在2011年美國(guó)弗吉尼亞州的地震就是一個(gè)很好的例證。據(jù)報(bào)道,當(dāng)時(shí)地震發(fā)生后,距離幾百公里外的紐約州居民首先在推特上看到弗吉尼亞地震的消息,紛紛跑出屋外,幾秒鐘之后才感受到震感——信息傳播的速度比地震波還快。
網(wǎng)絡(luò)災(zāi)情數(shù)據(jù)挖掘存在哪些瓶頸?
網(wǎng)絡(luò)大數(shù)據(jù)的多源、量大、內(nèi)容復(fù)雜、實(shí)時(shí)性等特征能幫助政府部門預(yù)測(cè)災(zāi)害的發(fā)生發(fā)展,決定救災(zāi)的輕重緩急,在防災(zāi)減災(zāi)救災(zāi)中,網(wǎng)絡(luò)大數(shù)據(jù)技術(shù)應(yīng)用發(fā)揮著作用越來(lái)越大。然而,面對(duì)“多源、量大、內(nèi)容復(fù)雜、實(shí)時(shí)性”的網(wǎng)絡(luò)災(zāi)情數(shù)據(jù),擺在政府救災(zāi)部門面前的的關(guān)鍵問(wèn)題是難以獲取大數(shù)據(jù)。同時(shí),受動(dòng)態(tài)社會(huì)群體與自然災(zāi)害特有的復(fù)雜性演變方式、快速蔓延、廣泛影響和可能的爆炸性影響力等特征影響,傳統(tǒng)的數(shù)據(jù)獲取和處理技術(shù)難以滿足現(xiàn)實(shí)需求,這些問(wèn)題已成為災(zāi)情精準(zhǔn)研判的瓶頸。網(wǎng)絡(luò)災(zāi)情數(shù)據(jù)挖掘的瓶頸主要表現(xiàn)在兩個(gè)方面:看得見(jiàn)大數(shù)據(jù),抓不到大數(shù)據(jù);抓得到大數(shù)據(jù),又無(wú)從處理大數(shù)據(jù)。
首先,看得見(jiàn)大數(shù)據(jù),抓不到大數(shù)據(jù),其主要反映的是災(zāi)情數(shù)據(jù)的獲取和收集問(wèn)題。在線下,災(zāi)情發(fā)生后,特別是地震、洪澇等災(zāi)害其破壞力極強(qiáng),災(zāi)后帶來(lái)的往往是人員傷亡、道路阻塞、通信中斷、物質(zhì)匱乏、次生災(zāi)害不斷,這時(shí)人們還處在悲傷的心理陰影期,一些行政組織完整性遭到破壞,人們把更多的精力重心放在搶救和自救上,其結(jié)果造成政府組織指揮效力被削弱,很多指令難以及時(shí)快速下達(dá)和落實(shí)。因此,如此極端環(huán)境下不僅難以快速收集到大量有效數(shù)據(jù),甚至有時(shí)還夾雜著很多不準(zhǔn)確數(shù)據(jù)。在線上,災(zāi)后網(wǎng)上災(zāi)情數(shù)據(jù)通常具有瞬時(shí)爆發(fā)、快速傳播、大范圍擴(kuò)散與海量數(shù)據(jù)積聚等特點(diǎn),而傳統(tǒng)的人工數(shù)據(jù)收集方式顯然很難做到及時(shí)反應(yīng)、快速跟蹤,全量采集,其收集的數(shù)據(jù)量一般只是整個(gè)災(zāi)情數(shù)據(jù)量的冰山一角。這種人工數(shù)據(jù)采集造成的數(shù)據(jù)量缺失對(duì)于災(zāi)情的精準(zhǔn)研判會(huì)有很大的局限性,對(duì)有效救災(zāi)工作的推進(jìn)很難發(fā)揮科學(xué)指導(dǎo)作用。因此,面對(duì)海量的網(wǎng)絡(luò)災(zāi)情數(shù)據(jù),我們只能“望網(wǎng)興嘆”。
其次,抓得到大數(shù)據(jù),又無(wú)從處理大數(shù)據(jù),其主要反映的是災(zāi)情數(shù)據(jù)的研判處理能力問(wèn)題。災(zāi)情大數(shù)據(jù)具有多源性、混雜性、個(gè)體傾向性、數(shù)據(jù)分散、語(yǔ)義模糊和非結(jié)構(gòu)化等特點(diǎn),同時(shí)海量數(shù)據(jù)還存在噪音多、混雜、質(zhì)量差和可信度低的問(wèn)題,這都增加了災(zāi)情大數(shù)據(jù)的分析和處理難度。災(zāi)害發(fā)生后,尤其是在救助生命、抑制次生災(zāi)害時(shí),對(duì)救災(zāi)時(shí)效性要求非常高,干預(yù)越及時(shí),效果越顯著,災(zāi)區(qū)現(xiàn)場(chǎng)數(shù)據(jù)的使用價(jià)值隨著時(shí)間流逝會(huì)急劇降低。而面對(duì)問(wèn)題多多的百萬(wàn)甚至千萬(wàn)災(zāi)情數(shù)據(jù),僅僅依靠人工形式來(lái)實(shí)現(xiàn)數(shù)據(jù)的分類聚類、數(shù)據(jù)提取、語(yǔ)義分析、報(bào)告展現(xiàn)等,顯然不切實(shí)際,第一點(diǎn)就很難滿足信息的時(shí)效問(wèn)題。如果如此數(shù)量的災(zāi)情數(shù)據(jù),通過(guò)人工一條一條的去刪選分類,大概救災(zāi)結(jié)束了信息處理還不見(jiàn)得完成。
自動(dòng)數(shù)據(jù)處理在災(zāi)情數(shù)據(jù)獲取上的應(yīng)用
災(zāi)情發(fā)生,救助生命、抑制次生災(zāi)害成為第一要?jiǎng)?wù),這時(shí)候救災(zāi)投入的時(shí)效性、資源數(shù)量等影響著救災(zāi)的效果,而如何快速?gòu)木W(wǎng)絡(luò)上獲取災(zāi)情大數(shù)據(jù),迅速分析研判出災(zāi)情動(dòng)態(tài),是科學(xué)指導(dǎo)救災(zāi)指揮的重要一環(huán)。只有解決了“抓不到大數(shù)據(jù),無(wú)從處理大數(shù)據(jù)”的問(wèn)題,我們才能發(fā)揮災(zāi)情大數(shù)據(jù)的最大潛能,真正實(shí)現(xiàn)大數(shù)據(jù)促進(jìn)防災(zāi)救災(zāi)減災(zāi)工作。而從上文我們不難看出,破解災(zāi)情數(shù)據(jù)挖掘瓶頸的核心是怎么解決數(shù)據(jù)抓取和數(shù)據(jù)分析的時(shí)效性,這一點(diǎn)基于自動(dòng)化的信息采集數(shù)據(jù)處理系統(tǒng)可以實(shí)現(xiàn),下面以深圳樂(lè)思的信息采集系統(tǒng)和輿情監(jiān)測(cè)系統(tǒng)為例。
在網(wǎng)絡(luò)數(shù)據(jù)采集方面。成立2003年的深圳樂(lè)思軟件,依托其互聯(lián)網(wǎng)海量信息精確監(jiān)測(cè)與垂直挖掘領(lǐng)域豐富的實(shí)踐經(jīng)驗(yàn)與領(lǐng)先優(yōu)勢(shì),研發(fā)出了網(wǎng)絡(luò)信息采集系統(tǒng)產(chǎn)品。該網(wǎng)絡(luò)信息采集系統(tǒng)根據(jù)用戶自定義的任務(wù)配置,批量而精確地抽取因特網(wǎng)目標(biāo)網(wǎng)頁(yè)中的半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),轉(zhuǎn)化為結(jié)構(gòu)化的記錄,保存在本地?cái)?shù)據(jù)庫(kù)中,用于內(nèi)部使用或外網(wǎng)發(fā)布,快速實(shí)現(xiàn)外部信息的獲取。它可以實(shí)現(xiàn)固定網(wǎng)站、頁(yè)面的信息實(shí)時(shí)自動(dòng)化采集,對(duì)目標(biāo)網(wǎng)站上可見(jiàn)的文本信息、URL、數(shù)字、日期、圖片、視頻、音頻信息實(shí)時(shí)抓取入庫(kù),采集平臺(tái)覆蓋微博、微信、論壇、博客、新聞、視頻、社交等多種平臺(tái),并支持多種語(yǔ)言信息數(shù)據(jù)抓取,其抓取速度高達(dá)每秒上萬(wàn)條數(shù)據(jù),同時(shí)實(shí)現(xiàn)抓取過(guò)程中的無(wú)關(guān)內(nèi)容去除。如在災(zāi)情發(fā)生后,可以通過(guò)樂(lè)思網(wǎng)絡(luò)信息采集系統(tǒng),在極短時(shí)間內(nèi)采集到微博、微信、論壇、新聞評(píng)論等平臺(tái)上的網(wǎng)友貼文和跟帖,并根據(jù)不同需求要素對(duì)數(shù)據(jù)進(jìn)行入庫(kù),解決人工采集難以實(shí)現(xiàn)的信息量、覆蓋面和收集速度問(wèn)題,為下一步的數(shù)據(jù)分析研判提供足量及時(shí)的數(shù)據(jù)。
在數(shù)據(jù)處理分析方面,樂(lè)思輿情監(jiān)測(cè)系統(tǒng)則具有很好的數(shù)據(jù)處理和分析能力。該系統(tǒng)可以通過(guò)系統(tǒng)的分析瀏覽子系統(tǒng)把采集到的數(shù)據(jù)按照需求設(shè)置進(jìn)行自動(dòng)分類、聚類,自動(dòng)提取信息數(shù)據(jù)摘要,實(shí)現(xiàn)人名識(shí)別、地名識(shí)別和機(jī)構(gòu)識(shí)別聚集,對(duì)數(shù)據(jù)信息實(shí)施一定語(yǔ)義情感判別,最終實(shí)現(xiàn)對(duì)數(shù)據(jù)背后反映的問(wèn)題的研判,形成各種豐富數(shù)據(jù)列表和數(shù)據(jù)走勢(shì)圖表,為指揮中心提供最直觀的數(shù)據(jù)報(bào)告。最主要的是系統(tǒng)可以再30分鐘內(nèi)同時(shí)分析幾十萬(wàn)條甚至幾百萬(wàn)條數(shù)據(jù),很好提高數(shù)據(jù)處理的效率,保證數(shù)據(jù)分析的時(shí)效性。比如想要掌握災(zāi)區(qū)各地物質(zhì)需求情況,救災(zāi)部門可以抓取微博或者論壇上跟“災(zāi)情描述”相關(guān)的海量數(shù)據(jù)信息,利用系統(tǒng)的聚類功能以地名、物資名等要素來(lái)對(duì)數(shù)據(jù)進(jìn)行分類,然后通過(guò)處理后的數(shù)據(jù)量來(lái)研判哪些地方救災(zāi)物質(zhì)緊缺,那種救災(zāi)物質(zhì)缺口最大,最終依此實(shí)現(xiàn)救災(zāi)資源的配送,減少對(duì)災(zāi)情不了解造成的資源分配浪費(fèi)問(wèn)題。
政府輿情監(jiān)測(cè)如何實(shí)現(xiàn)預(yù)警負(fù)面、危機(jī)公關(guān)和反饋民意?
互聯(lián)網(wǎng)時(shí)代 企業(yè)如何從網(wǎng)絡(luò)大數(shù)據(jù)中挖掘市場(chǎng)新需求
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)在打擊網(wǎng)絡(luò)色情上的應(yīng)用
如何實(shí)現(xiàn)網(wǎng)絡(luò)輿情信息的快速準(zhǔn)確抓取
如何推進(jìn)消防負(fù)面輿情監(jiān)測(cè)工作化解消防輿情危機(jī)