2015年2月28日,前央視調查記者柴靜攜帶《穹頂之下:中國霧霾調查》回歸公眾視野,該片一經播出迅速成為輿論暴風眼,而“霧霾是什么、它從哪里來、我們該怎么辦”三連問引發了公眾對大氣污染嚴重的同情和焦慮。正如柴靜所說,面對我國日益嚴重的污染現狀,我們該整么辦?在大數據被炒得熱火朝天的當前,我們不妨從《穹頂之下》作為切入點來聊聊如何利用大數據助力污染治理。
21世紀以來,隨著互聯網應用技術的快速發展,網絡數據呈現爆發式增長,以大數據戰略為導向的數據應用走進公眾視野,成為當下最熱應用領域。因此,數據如貨幣黃金,正成為一種新型經濟資產,大數據已成為差異化競爭力研究的新領域,成為企業創新的機遇。技術研究機構IDC曾預計,大量新數據無時無刻不在涌現,并以每年50%的速度遞增。從通信到測定方位、溫度甚至大氣化學變化,大數據應用無處不在。那么,作為公眾最為關注的污染治理領域,該如何發揮大數據的作用呢?
大數據的存在形式及產生方式
(一)web社會媒體的發展推動交互數據的空前繁榮。以微博、微信、博客、播客、維基、在線論壇等為傳播介質的web社會媒體為人們提供了分享意見、見解、經驗、心情、態度和觀點的平臺,如傳播于Facebook、Myspace、YouTbue、Twitter、新浪微博、騰訊微博、微信、人人網等平臺的文字、圖片、視頻、音頻、轉發、評論、點贊等各種信息數據,都是web社會媒體時代的交互數據,其構成了大數據的很重要一部分。
(二)互聯網生活方式衍生社會傳感網絡。在新的社會生活方式下,每個漫游于互聯網和移動網絡的網民都是一個潛在的具備高度智能的傳感器終端。他們在社會和自然環境中自主移動,參與各種活動,并通過感覺器官對周圍環境中發生的一切進行全面的感知與信息收集,利用自主只能進行分析與解讀,最后通過網絡信息平臺以文本、圖像、視頻、音頻等形式表現出來,同時與其他傳感器(網民)進行實時互動,并在互動過程中使信息更趨準確化。由此,億萬網民群體則可構成一個極其龐大的社會傳感網絡,而其信息在智能化、廣度、深度、準確性方面都是傳統監測手段或傳感器產品無法企及的。
(三)網絡信息背后暗藏污染治理情報數據。隨著中國網民數量的增長,公眾文化素養及個體意識的強化,網民通過輿論參與社會管理的積極日益增強,特別是對與民有害的環境問題容忍度不斷降低。于是一旦出現環境污染問題,網絡空間會涌現如發現、曝光、觀點、評論、主張、情緒等信息內容,雖然這些信息來源分散、表達隨意、語義模糊,但背后蘊含著環境污染問題構成要素的時空分布、污染源、污染強度、污染原因、處置結果、治理方法等情報數據,這些處于動態實時交互的海量網絡信息內容,構成了網絡上污染問題的大數據。
大數據助力污染治理的可能性
全面參與度越來越高,社會傳感網絡下的污染源、污染狀況等情報探測、傳播與反饋非常及時,網絡虛擬空間中的污染態勢呈現與現實中的污染態勢幾乎同步。
社會媒體能夠營造出一種前所未有的社會化全民動員情勢,不僅深入民心,而且會得到積極踐行。廣大網友成為分布各地的智能污染監測傳感器和監督員,各行各業以行業專長來幫助治理污染。如網友可以通過手機拍照、拍視頻、投訴、曝光等方式公布污染源、污染狀況等詳細信息,環保部門出面制止、處罰、關停污染源,環境治理機構提供治理方案等。
社會媒體的作用已深入到災害應急管理的各個環節。如在媒體報道、微博、微信、論壇、博客等平臺上傳播的各種污染時空分布、污染源、污染強度、污染原因、處置結果、治理方法等信息數據,有些污染預警甚至通過網民微博或微信曝光的信息來向民眾傳遞污染實情,發揮著超預期效果。
網絡虛擬空間中的污染反饋信息在網民之間頻繁互動過程中,可信度越來越高,地理定位越來越準和普及,結構化程度及可辨識性越來越好,數據質量不斷增強,可利用價值大幅提升。
]]>
開源爬蟲軟件
Nutch
優點:Nutch支持分布式抓取,并有Hadoop支持,可以進行多機分布抓取,存儲和索引。另外很吸引人的一點在于,它提供了一種插件框架,使得其對各種網頁內容的解析、各種數據的采集、查詢、集群、過濾等功能能夠方便的進行擴展,正是由于有此框架,使得 Nutch 的插件開發非常容易,第三方的插件也層出不窮,極大的增強了 Nutch 的功能和聲譽。
缺點:Nutch的爬蟲定制能力比較弱
Scrapy
優點:為抓取單一網站上固定格式的內容而設計的,比如抓取一個小說網站上的小說或者抓取一個電子商務網站上的商品。結構清晰,可以很方便得修改它來實現更復雜的需求。
缺點:要進行大規模的抓取,可能要修改scrapy以處理如下問題??焖俚膌ink extractor。python的SGMLParser實在是太慢了,使用SgmlLinkExtractor會讓爬蟲把大部分的時間都浪費在解析網頁上,最好自己寫一個link extractor。也可以用正則表達式來寫link extractor,速度快,問題是不理解html語義,會把注釋里的鏈接也包含進來。另外基于javascript重定向url也要在這里提取出來。
爬蟲陷阱。 爬蟲可能陷入鏈接引用死循環。
增量抓取。一個針對多個網站的爬蟲很難一次性把所有網頁爬取下來,并且網頁也處于不斷更新的狀態中,爬取是一個動態的過程,爬蟲支持增量的抓取是很必要的。
高效數據存儲。抓取的頁面多了之后如何存儲就成了一個問題,按我們的統計純html頁面的平均大小大概在20~30k之間,百萬的頁面抓下來之后占用的硬盤空間大概是幾十G。ntfs和ext3這些文件系統在小文件過多之后效率都會比較低,需要優化存儲效率。
Heritrix
優點:Heritrix的爬蟲定制參數多。
缺點:單實例的爬蟲,之間不能進行合作。在有限的機器資源的情況下,卻要復雜的操作。只有官方支持,僅僅在Linux上進行了測試。每個爬蟲是單獨進行工作的,沒有對更新進行修訂。在硬件和系統失敗時,恢復能力很差。很少的時間用來優化性能。相對于Nutch,Heritrix僅僅只是一個爬蟲工具,沒有提供搜索引擎。如果要對抓取的站點排序必須要實現類似于Pagerank的復雜算法。
WebMagic
優點:簡單,適合小網站抓取。
缺點:用戶太少,后續升級能力不強。
SpiderMan
優點:簡單,適合小網站抓取。
缺點:用戶太少,后續升級能力不強。Nutch, Scrapy, WebMagic, SpiderMan, Heritrix 都是開發源代碼的網頁數據爬取工具,最大的優勢是免費,源代碼可以自由修改。但是使用這類爬蟲中間件有幾個問題:
1.他們對于現在流行的AJAX風格的頁面都抓去不到或需要很復雜的配置,因為爬蟲中間件都是向網站發送一個請求,通過分析其響應的源代碼來獲取信息,而AJAX網站一般其內容很可能不在首次直接響應的HTML源代碼中,而在其后續的HTTP請求響應中。
2.他們對于信息的精確采集一般通過XPath與正則表達式來提取,而這兩種技術比較復雜,難于維護,一般程序員都不會。
3.這類爬蟲需要進行較大的修改以適應輿情監測的周期性定向主題聚焦采集的需求,短期內無法保證其完全適合輿情監測的需要,且修改時間成本也較高。
樂思軟件的優勢
樂思網絡信息采集系統是由國內一家專門做信息采集的公司提供的專業采集系統,不是開源的,屬于收費的商業軟件,主要是針對任意網站的快速信息采集,除了爬蟲技術之外,可以支持各種AJAX技術開發的網站,如新聞,論壇,微博等,還可以用其利用新浪API進行數據采集。
樂思軟件對于網頁的精確采集可以自動進行分析或者只要很少的基于可視化的人為指導—框住需要的數據即可。
樂思軟件適用面廣,且在國內已有一定用戶群,有大量采集目標網站的經驗,屬于成熟軟件,雖然收費,但整體上在本輿情系統中應用的成功率大大高于其它開源的爬蟲中間件。
具體對比表格如下:
]]>