
在政府門戶網站上提供地區化的垂直搜索或行業化的垂直搜索服務,運用搜索引擎的技術成果,建設一個覆蓋政府公文、政府信息公開、政策法規、政府采購、政府網上辦事等領域的專業搜索引擎,有助于把資源的利用和信息挖掘做深做透,完成對地區或行業政府異構門戶網站的資源整合,對政府門戶網站的服務提升具有重要的意義和價值。
系統架構
系統可劃分為"數據采集引擎"和"全文檢索引擎"兩大部分。
提供對網頁數據、文檔數據、數據庫數據實現元數據的抽取和索引。
系統采用分布式索引技術構建強大的異構互聯網搜索引擎架構。
可配合大漢JGET信息采集系統和內容管理完成更為復雜的結構化和非結構化的數據資源整合搜索。

系統特點
定向性:指定搜索范圍,使結果更準確
可根據政府門戶網站的服務對象范圍,設定搜索范圍,建立國家部委、省廳部門垂直向下或各級地方政府廣泛而精確的搜索引擎服務。
系統結合"異構網站資源整合"、"異構信息聚合"和"全文檢索"技術,對各級各部門政府資源通過采集、聚合、挖掘和檢索,實現對跨地區、跨部門的政府資源信息整合和利用。建立起強大的政務信息資源庫體系及政府專業搜索引擎平臺。
服務于政府分類資源的搜索使得結果更精確
可根據公眾對政府門戶網站的普遍需求,搜索資源進行預分類,將異構網站的同類資源和相關資源通過關鍵詞相關技術進行自動標引分類,實現分類檢索。
框服務打造更好的和用戶體驗和公眾服務理念
框服務可以給用戶提供更好的體驗,通過檢索框輸入想要獲取內容的關鍵詞,并由"框"進行關鍵詞聯想,為公眾提供一種高效、簡單的、場景式的統一獲取服務的入口。
可管理性:范圍和分類、關鍵詞可配置,體現服務特色
可以根據需要,增加分類搜索引擎的覆蓋范圍和搜索分類,并可以對搜索關鍵詞進行配置,提高檢準率和個性化服務能力。
提供了異構門戶網站整合的可行性方案
通過對分類搜索引擎建立,創造對異構門戶網站進行資源整合的可行性方案,該高藕合的整合方式,不需要對原有門戶網站進行任何改造和調整。
通過建立分類資源搜索引擎,可以建立"專題搜索",實現跨部門、跨行業的資源整合。如,建立"信用"搜索專題,可以將按搜索范圍精確到工商、稅務、質監、環保等部門門戶網站信息資源。
技術優勢
強大的數據采集適配網關
依據強大的數據采集適配網關建立對本地、網絡非結構化文檔,數據庫字段和各類網站自動ROBOT爬取等數據采集適配的功能。
實現海量信息的實時掃描、采集、去重、智能分類和數據抽取挖掘等中文智能處理。
支持對非結構化數據文件格式,如MS OFFICE(Word / Excel / PowerPoint)、HTML、RTF、PDF、TXT等多種文本文件。
支持多種關系型數據庫字段接口,包括:ORACLE、MS SQL SERVER、SYBASE、DB2、MySQL等主流數據庫。
基于中文智能處理的全文檢索技術內核
系統采用中文智能分詞、空間向量模型。
基于Ontology自然語言分析技術,數據索引實現零膨脹率。
支持對關鍵詞搜索、整句搜索、中英文混合搜索、"與、或、非"等多條件組合檢索,搜索結果二次檢索等對各類文檔數據的高速檢索功能。
系統提供采用智能中文切詞技術、自動分類、自動聚類、關鍵詞自動標引、自動文摘、信息過濾、中文內容相關性算法、關聯規則挖掘、實現按相關率和按時間的多種排序搜索等多種實用功能。
系統支持搜索快照,主題詞相關,關鍵詞檢索聯想等多種智能搜索功能。
大漢獨有的正文自動抽取技術,可自動識別和去除網頁信息垃圾,大大提高全文檢索搜索結果的準確度。
更為強大的精確采集和異構整合技術
提供普通全文檢索所能完成網頁ROBOT爬取和粗略頁面關鍵詞搜索外的特定內容全文檢索。比如專門對政府公文、法律法規、政府信息公開等特定的內容或字段。
可結合大漢JGET產品的中文精確采集技術和異構整合技術,包括: 智能自動分類、自動信息聚合、多線程定向采集、智能去重、采集規則適配等,準確地實現各種異構網站系統和各種應用的精確內容搜索,構建出一系列面向關鍵領域的,更為專業細分的搜索引擎平臺。
海量信息采集和存儲支持,構架分布式集群搜索
系統可以支持海量信息采集和存儲,即支持多服務器協同采集對接同一個檢索服務。實現分布式采集體系,提升采集性能和效率,大大提高采集的廣度和速度,完成更加高效快捷的搜索引擎架構。
系統支持多索引、集群檢索服務架構,通過增加檢索服務器實現海量數據的無限擴展,實現千萬級以上,及上億級海量數據的大型搜索引擎架構體系。

支持大并發響應,數據備份和靈活的擴展接口
系統采用多線程設計,并發訪問性能高,系統資源占用率低,對服務器硬件資源要求低。
系統支持集群式構架,結合分布式部署和負載均衡的擴展,通過對檢索請求的任務調度管理和分發實現大數據量的并發請求,服務器可根據數據量和訪問量進行擴展。
系統支持強大的索引數據手動和自動備份功能,使得服務器數據在發生意外情況(如斷電、硬盤損壞等)下,實現數據找回和損壞數據的修復。
系統提供豐富完善的第三方擴展的WEBSERVICE接口,包括:索引庫接口、文檔機構接口、索引庫驗證接口、數據同步接口、查詢接口、關鍵詞排行接口等,為二次開發做到最為靈活的擴展。
文章作者:國脈電子政務網
CIO頻道人物視窗
CIO頻道方案案例庫
大數據建設方案案例庫
電子政務建設方案案例庫
互聯集成系統構建方案案例庫
商務智能建設方案案例庫
系統集成類軟件信息研發企業名錄