網絡輿情是怎么監測的?主要通過什么途徑？

KnowlesysOp — Fri, 11 May 2018 18:58:14 +0000

網絡輿情的監測：

一、人工監測

人工，是進行全網的搜索，通過關鍵詞的信息量，人為判斷輿情產生，這種方式需要在全網鋪開來做，比如新聞網站、論壇、貼吧、微博、微信都是屬于輿情滋生之地，皆有可能產生輿情。但人工搜索工作量大而且容易遺漏存在巨大風險，最關鍵的是你所遺漏的可能正是關鍵事件。

二、專業的輿情監測平臺。

專業輿情平臺，是借助專業機構的輿情相關軟件，利用技術獲取海量信息，再利用中文分詞技術、自然語言處理技術、中文信息處理技術，對信息進行垃圾過濾、去重、相似性聚類、情感分析、提取摘要、自動聚類等處理，及時發現輿情。

網絡輿情監測的途徑：

一、使用搜索入口作為捷徑

搜索入口有兩類：一類是搜索引擎的入口，一類是網站的站內搜索。

做輿情監測往往是有主題、有定向的去做，所以很容易就可以找到監測對象相關的關鍵字，然后利用這些關鍵字去各類搜索入口爬取數據。

當然也會遇到反扒的問題，例如你長時間、高頻次的爬取搜索引擎的結果頁面，網站的反扒策略就會被觸發，讓你輸入驗證碼來核實是否是人類行為。

使用搜索入口作為捷徑也會帶來一些好處，除了爬取門檻低，不需要自己收錄各類網站信息外，另一個特別明顯的好處是可驗證性非常好，程序搜索跟人搜索的結果會是一致的，所以人很難驗證出你獲取的數據有偏頗。

二、爬蟲根據網站入口遍歷爬取網站內容

第一步要規劃好待爬取的網站有哪些？根據不同的業務場景梳理不同的網站列表，例如主題中談到的只要監測熱門的話題，這部分最容易的就是找門戶類、熱門類網站，爬取他們的首頁推薦，做文章的聚合，這樣就知道哪類是最熱門的了。思路很簡單，大家都關注的就是熱門。至于內容網站怎么判斷熱門，這個是可以有反饋機制的：一類是編輯推薦；一類是用戶行為點擊收集，然后反饋排序到首頁。

第二步是使用爬蟲獲取數據。爬蟲怎么寫是個非常大的話題，在這里不展開說明，需要提一嘴的是，爬蟲是個門檻很低但是上升曲線極高的技術。難度在于：網站五花八門；反扒策略各有不同；數據獲取后怎么提取到想要的內容。

三、數據檢索與聚合

數據獲取下來后哪些是你關心的、哪些是垃圾噪聲，需要用一些NLP處理算法來解決這些問題。這方面門檻高、難度大。首先大規模的數據如何被有效的檢索使用就是個難題。比如一天收錄一百萬個頁面（真實環境往往比這個數量級高很多），上百G的數據如何存儲、如何檢索都是難題。值得高興的是業內已經有一些成熟的方案，比如使用solr或者es來做存儲檢索，但隨著數據量的增多、增大，這些也會面臨著各種問題。

通常對熱門的判斷邏輯是被各家網站轉載、報道的多，所以使用NLP的手段來做相似性計算是必須的，業內常用的方法有Simhash或者計算相似性余弦夾角。有些場景不單單是文章相似，還需要把類似談及的文章都做聚合，這時就需要用到一些聚類算法，例如LDA算法。從我們的實踐經驗來看，聚類算法的效果良莠不齊，需要根據文本特征的情況來測試。

（知乎：國雙商業市場、西窗捕輿）

樂思網絡輿情監測系統

如何做好輿論應對與疏導

大肉大捧一进一出好爽mba,蜜臀久久99精品久久久,成人国产精品免费观看

網絡輿情是怎么監測的?主要通過什么途徑？