
CGSEEK是采用以使用者為中心的設計思想,在網頁搜索、內容過濾、全文檢索、智能內容挖掘和計算機自動分類技術的支持下,全面改善Internet的使用現狀,是一個全新概念的信息服務產品。
智能互聯網信息采集系統由網頁搜索器CGRobot、網頁自動加載器CGLoad、內容提取系統CGCPS、全文數據庫系統CGRS、自動分類學習軟件CGStudy組成。
首先,選擇從互聯網上采集信息的目標網站,設定網頁搜索器CGRobot的搜索策略,CGRobot自動從目標網站上采集滿足搜索條件的網頁,網頁自動加載器CGLoad將網頁自動加載到WEB頁面數據庫中。用戶根據WEB頁面數據庫中的網頁信息,使用網站內容提取系統CG-CPS,制作網頁內容提取模板,提取用戶需要的信息。CGRobot依據搜索策略和提取模板,自動、批量地從目標網站上搜索網頁信息,并轉換成文本記錄加載到文本內容數據庫中。如果要對采集的網頁內容進行分類,可以依據自動分類學習軟件CGStudy生成的分類文件進行分類。
從互聯網上采集、加工后加載到文本內容數據庫中的信息可以利用CGRS系列軟件進行信息發布、內容挖掘和信息的再利用。
1、網頁搜索器(CGROBOT)
網頁搜索器是CGSeek5.1的前端程序,它能夠把網站上全部或部分頁面和資源自動收集到本地。系統主要功能:
(1)用戶設定頁面搜索范圍
● 設定URL起始入口
● 設定頁面搜索范圍與限定
● 通過資源文件的后綴設定搜索頁面中哪些資源文件。如設定圖片、多媒體資源
(2)WEB服務的聯接方式
●設置WEB服務器的聯接方式、數據后處理方式(是脫機瀏覽還是發送到搜索引擎庫)
(3)每個站點的搜索深度可以根據需要設定
(4)URL中的表達式分析功能可以指定包含的表達式和過濾的表達式,以滿足搜索內容要求
(5)對頁面進行自動分類處理
(6)設定下載頁面的文件最大尺寸和截斷長度。
(7)自動搜索剖析下載網頁內容
(8)自動發送下載頁面及映像文件
(9)遵循網頁搜索規則
2、網頁自動加載器
網頁自動加載器是網頁頁面加載到WEB頁面數據庫的處理程序,它啟動之后自動執行加載功能,毋須人工干預。系統主要功能:
(1)網頁頁面及映像文件自動加載到WEB頁面數據庫;
(2)自動更新網頁頁面;
(3)建立網頁頁面全文索引;
3、全文數據庫系統CGRS5.0
全文數據庫系統對文獻進行管理,并提供強大的檢索功能。
4、網站內容提取系統CGCPS
從網頁數據庫中,按照個性化需求設計內容提取模版和規則,從WEB頁面數據庫中檢索滿足要求的頁面,從中自動提取相關的文本信息。系統主要完成以下功能:
(1)從Web網頁數據庫中通過強大全文數據庫檢索功能,篩選出要處理的網頁。
(2)選出符合制作模板條件的網頁,經過添加標引制作成網頁提取模板。
(3)模板自動提取結構化信息轉換并標引文本信息內容。
5、自動分類學習軟件(CGStudy)
自動分類學習軟件是通過學習語料庫中的語料后生成一個分類規則文件,CGrobot用分類規則文件對網上下載的頁面進行自動分類。同時通過反復學習,不斷完善分類規則文件,提高自動分類的準確度。
主要功能包含了:語料文件編制、格式檢查、分類學習和語料測試。
1、支持建立多個引擎數據庫,最大32767個。
2、下載速度;和網絡速度有關。
3、支持斷點續傳。
4、頁面自動分類準確率約80%。
5、單個引擎數據庫最多可存儲42億個頁面。
6、5億個漢字的信息平均查詢時間少于3秒。
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄