21 世紀是數據信息大發展的時代,移動互聯、社交網絡、電子商務等極大拓展了互聯網的邊界和應用范圍,各種數據正在迅速膨脹并變大。互聯網(社交、搜索、電商)、移動互聯網(微博)、物聯網(傳感器,智慧地球)、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數據。社交媒體時代,通過互聯網平臺表達社情民意,體現用戶的意愿,評論和態度。從古代的“防民之口甚于防川”,到如今的網絡時代,“人人都有了自己的麥克風”。
輿情,就是一個風向標。輿情分析,就是針對民眾態度的收集和整理,發現相關的意見傾向,客觀反映輿情狀態。
海量的數據隱含著巨大的信息。例如亞馬遜上的用戶對某商品的評論,商家可以根據用戶的評論和反饋為用戶提供定制性的服務,甚至可以預測用戶的需求,從而達到更加準確的銷售目的;例如新浪微博上粉絲過萬的大型零售商等,也可以根據用戶發表的微博,微話題,簽到地點為用戶定制性的推送優惠及新品信息。這些看似龐大無規則的數據,包含著大量的用戶標簽及潛在的用戶肖像。
存儲與分析中文文本數據也是技術上的關鍵,如何能夠存儲并分析海量數據,生成精確的用戶標簽,依賴于數據存儲系統和文本分析系統的技術。本文的數據存儲運用 DB2 BLU Acceleration,利用 DB2 BLU 速度快、與 Cognos 無縫結合的特性來存儲和分析數據。中文文本分析基于 Hadoop 的文本分析平臺,快速進行中文分詞和建立標簽詞典。
隨著中國互聯網的快速發展,輿情監測工作已經成為政府、企業工作內容的一部分。政府和企業實施輿情監測,首要的意義就是提前發現輿情危機,及時處理危機公關。
對于有些網絡輿論,有些輿情會對政府的形象產生影響,進行輿情監測,可以及時的了解事件的動態,對這些錯誤、失實的輿論進行正確的引導。政府實施輿情監測還可以掌握社會民意,通過了解社會各個階層民眾的情緒、態度、看法以及意見和行為傾向,然后對事件做出正確的決定。
對企業來說,有效地監測,第一時間了解,及時地處理企業在網絡上的相關負面信息就顯得尤為重要,特別是利用企業輿情監測,第一時間最快速預警負面輿情,及時發現和處理企業的負面信息,保持企業的健康良好形象。輿情監測系統對全網信息進行抓取和搜集,將信息分為正面、中性、負面。通過對數據分析和整理可以了解企業產品動態、用戶需求 ,然后企業做出正確的解決辦法。