網絡輿情的監測:
一、人工監測
人工,是進行全網的搜索,通過關鍵詞的信息量,人為判斷輿情產生,這種方式需要在全網鋪開來做,比如新聞網站、論壇、貼吧、微博、微信都是屬于輿情滋生之地,皆有可能產生輿情。但人工搜索工作量大而且容易遺漏存在巨大風險,最關鍵的是你所遺漏的可能正是關鍵事件。
二、專業的輿情監測平臺。
專業輿情平臺,是借助專業機構的輿情相關軟件,利用技術獲取海量信息,再利用中文分詞技術、自然語言處理技術、中文信息處理技術,對信息進行垃圾過濾、去重、相似性聚類、情感分析、提取摘要、自動聚類等處理,及時發現輿情。
網絡輿情監測的途徑:
一、使用搜索入口作為捷徑
搜索入口有兩類:一類是搜索引擎的入口, 一類是網站的站內搜索。
做輿情監測往往是有主題、有定向的去做, 所以很容易就可以找到監測對象相關的關鍵字,然后利用這些關鍵字去各類搜索入口爬取數據。
當然也會遇到反扒的問題,例如你長時間、高頻次的爬取搜索引擎的結果頁面,網站的反扒策略就會被觸發,讓你輸入驗證碼來核實是否是人類行為。
使用搜索入口作為捷徑也會帶來一些好處,除了爬取門檻低,不需要自己收錄各類網站信息外,另一個特別明顯的好處是可驗證性非常好,程序搜索跟人搜索的結果會是一致的, 所以人很難驗證出你獲取的數據有偏頗。
二、爬蟲根據網站入口遍歷爬取網站內容
第一步要規劃好待爬取的網站有哪些? 根據不同的業務場景梳理不同的網站列表, 例如主題中談到的只要監測熱門的話題,這部分最容易的就是找門戶類、熱門類網站,爬取他們的首頁推薦,做文章的聚合,這樣就知道哪類是最熱門的了。思路很簡單,大家都關注的就是熱門。至于內容網站怎么判斷熱門,這個是可以有反饋機制的:一類是編輯推薦;一類是用戶行為點擊收集,然后反饋排序到首頁。
第二步是使用爬蟲獲取數據。爬蟲怎么寫是個非常大的話題,在這里不展開說明,需要提一嘴的是, 爬蟲是個門檻很低但是上升曲線極高的技術。難度在于:網站五花八門;反扒策略各有不同;數據獲取后怎么提取到想要的內容。
三、數據檢索與聚合
數據獲取下來后哪些是你關心的、 哪些是垃圾噪聲,需要用一些NLP處理算法來解決這些問題。這方面門檻高、難度大。首先大規模的數據如何被有效的檢索使用就是個難題。 比如一天收錄一百萬個頁面(真實環境往往比這個數量級高很多),上百G的數據如何存儲、如何檢索都是難題。值得高興的是業內已經有一些成熟的方案,比如使用solr或者es來做存儲檢索, 但隨著數據量的增多、增大,這些也會面臨著各種問題。
通常對熱門的判斷邏輯是被各家網站轉載、報道的多, 所以使用NLP的手段來做相似性計算是必須的,業內常用的方法有Simhash或者計算相似性余弦夾角。有些場景不單單是文章相似,還需要把類似談及的文章都做聚合,這時就需要用到一些聚類算法,例如LDA算法。從我們的實踐經驗來看,聚類算法的效果良莠不齊, 需要根據文本特征的情況來測試。
(知乎:國雙商業市場、西窗捕輿)