
樂思網絡新聞轉載系統(tǒng)是基于全球領先的采集技術而研發(fā),可以每天輔助網編系統(tǒng)地批量地快速地發(fā)現(xiàn)有新聞價值的實時信息。
樂思網絡新聞轉載系統(tǒng)是針對的趨勢,通過對大量目標網站(如新聞,論壇,博客,微博等)進行實時自動采集、匯總、識別其中的關鍵信息, 從而第一發(fā)現(xiàn)具有新聞價值的信息,并提供后續(xù)編輯審核功能的一套網編工作平臺。
其系統(tǒng)架構如下圖所示: 樂思 軟件knowlesys.com

圖1. 樂思網絡新聞轉載系統(tǒng)的系統(tǒng)架構
相比目前的人工新聞轉載,其優(yōu)勢明顯:
比較指標 |
采用樂思網絡新聞轉載系統(tǒng) |
人工轉載 |
目標網站 |
幾百個到幾千個幾萬個 |
幾十個 |
人力成本 |
網絡信息的獲取工作完全由軟件自動進行,少數(shù)網編人員只需在內網集中進行內容的瀏覽與分析 |
大量網編需分別登錄各個網站,手工查閱,還要手工復制粘貼,疲于奔命 |
新聞線索識別 |
在自動判別的基礎上再人工確認 |
需要逐條人工查看確認 |
信息保存 |
精確,全面,便于事后追蹤 |
零碎,不可避免會出錯 |
數(shù)據(jù)存儲 |
統(tǒng)一存放在大型關系數(shù)據(jù)庫中,集中管理 |
隨時粘貼,很難管理 |
工作報告 |
基于自動化的統(tǒng)計分析, |
模糊,不清楚,沒有數(shù)量統(tǒng)計: 樂思 軟件 |
轉載效果 |
系統(tǒng)、大量地轉載合作媒體或網友曝料,網站流量與排名迅速提升 |
不系統(tǒng),少量 |
1. 各大新聞網站,紙質媒體,論壇,博客,微博,視頻網站中的最新信息都自動集中呈現(xiàn)
2. 系統(tǒng)快速地發(fā)現(xiàn)有價值信息,只需一點鼠標即可選擇
3. 網編的更多時間可以放在深度編輯或原創(chuàng)上 樂思
4. 每日轉載量呈幾十倍幾百倍提升,網站流量與排名迅速提升
樂思網絡新聞轉載系統(tǒng)由兩個子系統(tǒng)組成:自動采集子系統(tǒng)與結果瀏覽子系統(tǒng)。其關系如下圖所示:

圖2. 系統(tǒng)組成
樂思網絡新聞轉載系統(tǒng)的網絡拓撲結構如下圖所示,依據(jù)需要也可以分開在隔離的外網與內網中實施。

圖3. 網絡拓撲結構
自動采集子系統(tǒng)可以對任意目標網站進行自動采集。
例如:新華網、強國論壇、天涯社區(qū)、西祠社區(qū)、網易社區(qū)、新浪論壇、搜狐社區(qū)、鳳凰網、百度貼吧、以及用戶指定的其他動態(tài)網站。可以抽取所有新聞文章或主題帖或者最新主題帖內容,還可以抽取某個主題帖的所有回復帖或者最新回復帖的內容。即可指定某個目標網站進行監(jiān)測,也可以不指定目標網站對于全球范圍內網站進行監(jiān)測,或者進行兩者混合監(jiān)測。既可以監(jiān)測國內網站,也可以監(jiān)測國外網站如BBC,CNN。
后端數(shù)據(jù)庫支持任意的主流關系型數(shù)據(jù)庫,如Oracle、IBM DB2、 MS SQL Server、 MySQL、 Sybase以及文件型數(shù)據(jù)庫Access等。
樂 思 軟 件
自動采集子系統(tǒng)的全方位監(jiān)測功能如下圖所示:

圖4. 自動采集子系統(tǒng)全方位監(jiān)測
自動采集子系統(tǒng)具有以下幾個顯著特點:
1. 全球領先的自動采集功能
樂思軟件的網絡信息采集技術全球領先,支持對任意網頁內任意數(shù)據(jù)的精確采集。樂思軟件每天都為國內外用戶針對各種各樣的網站提供采集服務,沒有高效穩(wěn)定的采集平臺是無法做到的。
2. 支持各種監(jiān)測對象
可以實時監(jiān)測新聞,論壇,博客,公共聊天室,搜索引擎,留言板,應用程序,報刊網站電子版等。
3. 無需配置直接監(jiān)測幾千個新聞網站
系統(tǒng)內置對全球范圍內網站的監(jiān)測配置,只需輸入關鍵詞,自動采集出文章標題與正文。
4. 強大的多語言統(tǒng)一處理功能
可自動處理并保存中文,英文,法文,德文,日語,韓語等多國語言。 knowlesys.cn
5. 智能文章提取
對于文章類型網頁,可以無需配置,直接自動提取文章正文與標題,以及作者發(fā)布日期等,自動去除廣告,欄目,版權等無關的垃圾內容
6. 完美支持各種網頁情況
支持當前流行的Web 2.0 AJAX動態(tài)網站
支持用戶名與密碼自動登錄
支持表單查詢新聞轉載
支持下一頁自動瀏覽功能
支持多頁面文章內容自動抽取與合并 樂 思 軟 件
可以自動下載正文內圖片以及各類附件
可以選擇保存原文快照以備查
支持多種互聯(lián)網協(xié)議: HTTP、HTTPS、以及FTP
支持多種網絡文件格式:HTML/XML/CSV/TEXT/RSS/ATOM
…
7. 自動去重功能
每次采集時,對于同一個URL,僅采集最新的沒有采集過的文章內容或回復,對于已經采集過的內容,自動忽略。對于轉載文章,可以選擇自動去重。
8. 內置各種后期數(shù)據(jù)處理功能
數(shù)據(jù)從網頁上獲取后,可進一步精加工為各種更細粒度的字段數(shù)據(jù)或者合并整合,替換統(tǒng)計等. 例如關鍵詞抽取,街道地址抽取,省市名稱抽取,郵編抽取,電話號碼抽取,傳真號碼抽取,電子郵件地址抽取,QQ/MSN/Skype抽取,URL抽取等。 樂-思-軟-件
9. 可無人值守全天候自動采集
可定時運行,也可7×24小時運行,可設置采集時間間隔最短為1分鐘。
10. 用戶可以自行添加目標監(jiān)測網站
利用系統(tǒng)提供的采集平臺,用戶可以很容易地對目標網站進行可視化分析,配置出采集任務文件,加入調度過程,從而可以任意修改,增加,移除監(jiān)測目標。
結果瀏覽子系統(tǒng)讓各個可能新聞來源網站的最新信息實時呈現(xiàn)在用戶的桌面瀏覽器中,其功能架構如下。

圖5. 結果瀏覽子系統(tǒng)功能架構
結果瀏覽子系統(tǒng)具有以下顯著特點:
1. 多人協(xié)同工作
不同用戶瀏覽不同內容,執(zhí)行不同操作,完成不同職責
2. 文章要素顯示
對于新聞文章與博客文章,可采集標題,正文,作者,發(fā)布時間,來源
對于關鍵詞用高亮背景彩色顯示 新聞轉載
更可以僅顯示標題列表便于快速瀏覽
3. 帖子要素顯示
對于論壇帖子,可采集標題,正文,作者,發(fā)貼時間,查看次數(shù),回復貼數(shù), 發(fā)貼人IP
對于關鍵詞用高亮背景彩色顯示
更可以僅顯示標題列表便于快速瀏覽
4. 分類與編輯
對于采集后的信息內容,可以進行過濾,分類,備注,與編輯,便于后期管理與分析
5. 強大的搜索功能
既可以精確搜索也可以模糊搜索,既可以按分類搜索,也可按來源搜索
6. 支持人工添加
可以人工添加文章 新聞監(jiān)測論壇監(jiān)測博客監(jiān)測
7. 反網站限制功能
可采集被國內屏蔽的國外網站,可采集限制了來源IP與訪問頻率的網站,可自動獲取代理IP,無需設置
本系統(tǒng)主要應用于各類門戶網站運營商。
由于互聯(lián)網的復雜性,樂思網絡新聞轉載系統(tǒng)實施起來需要與客戶的交流與配合。
針對客戶需求,我們提供如下系統(tǒng)實施服務:
編號 |
名稱 |
內容 |
1 |
交鑰匙工程 |
提供樂思網絡新聞轉載系統(tǒng)的整套軟件與文檔, |
2 |
培訓 |
提供遠程培訓或上門培訓服務 |
3 |
后續(xù)服務 |
定期提供目標網站更新后的配置參數(shù)文件 |
4 |
技術支持 |
通過電話、Email、QQ/MSN/Skype 回答用戶的問題,進行技術支持 |