如果你想聘請一位專業的擁有多年經驗的網絡爬蟲開發工程師,建議您考慮樂思網絡信息采集系統,它在網絡定向爬蟲領域有10多年的經驗,相信一定可以幫到你。
下面的招聘要求中粗體部分,都是樂思網絡信息采集系統擅長的。
職位描述:
1、職位概述
負責國外亞馬遜、淘寶、京東等電子商務網絡爬蟲的開發;網絡爬蟲架構設計、功能開發及優化;網頁信息抽取等核心算法的研究和優化;高性能、分布式網絡服務的開發。
2、主要職責
–參與分布式爬蟲和數據采集系統的架構設計和研發;
–參與分布式爬蟲模塊服務架構和數據存儲架構的設計和研發;
–參與公司自開發軟件產品的架構設計和研發;
–參與部門設計評審與代碼審核;
–以技術專家的身份解決項目中所遇到的核心技術問題;
3、崗位要求
本科或以上學歷 ,計算機軟件或相關專業
5年以上JAVA開發經驗;至少3年以上中大型web應用系統架構設計經驗
2年以上互聯網或企業級網絡爬蟲開發經驗;
熟悉Lucene/Nutch/Heritrix/HtmlParser等開源工具,熟練使用正則表達式;
精通Java,精通OOP、UML、設計模式能熟練使用Rose建模工具完成軟件設計;
具備信息檢索、自然語言處理、web挖掘等搜索引擎相關知識,有從事網絡爬蟲、網頁去重、網頁信息抽取的開發經驗
具有大數據挖掘、自然語言處理、信息檢索、機器學習背景的優先;
熟練使用mysql等常用的數據庫系統,對數據庫有較強的設計能力,同時對數據庫連接池的使用,線程池技術等較為熟悉者優先考
熟悉OO分析和設計模式;
具有電子商務,互聯網背景者優先。
職能類別:高級軟件工程師 系統架構設計師
關鍵字:網絡爬蟲 爬蟲
職位描述:
工作職責:
1. 負責網絡爬蟲產品的研發工作;
2. 負責各種核心算法的設計與開發;
3. 負責網絡爬蟲采集規則的編寫;
4. 解決網頁抓取、信息抽取等問題,構建高可用性、高擴展性網絡信息收集平臺;
5. 解決封賬號、封IP采集難點攻克。
職位要求:
1. 計算機、信息技術或相關專業本科或以上學歷;
2. 三年以上開發經驗,熟悉linux平臺;
3. 兩年以上大規模網頁爬蟲開發經驗;
4. 有分布式爬蟲架構經驗者優先;
5. 對算法設計和數據結構有深刻的理解;
6. 有很強的分析和解決問題的能力;
7. 強烈的責任心和良好的團隊合作能力。
職能類別:軟件工程師
職位描述:
崗位職責:
1.分析定向數據源,制定數據抓取方案;
2.定向爬蟲的編寫與數據抽取;
3.維護已有爬蟲程序。
崗位要求:
1.精通Java 或者 Python, 了解Linux Shell腳本;
2.精通HTTP 及 TCP 底層協議;
3.有較強的整體布局思維,數據框架組合處理能力強,對分布式計算和儲存有經驗者優先;
4.具有網絡爬蟲.網頁信息抽取.機器學習.web挖掘等搜索引擎等任何一種優勢經驗優先;
5.計算等相關專業,本科學歷,一年及以上經驗。
職能類別:軟件工程師
職位描述:
工作職責:
1.編寫大規模分布式網絡爬蟲(多線程、分布式調度、協議處理);
2.系統解決動態網頁內容抓取、深度網頁內容抓取的關鍵技術;
3.機器學習,信息檢索,大規模數據挖掘等工作;
4.負責大數據高性能分布式處理系統的開發
5.數據清洗整理類產品的應用開發、優化;
6.構建和開發在海量數據下多維分析的數據分析平臺
職位要求:
1.Java基礎扎實,精通SSH等開源框架;
2.熟悉MySql、Oracle、MongoDB一種或多種數據庫開發技術,有較好的數據庫設計能力;
3.精通網頁抓取原理及技術、深度抓取、動態網頁技術抓取、瀏覽器模擬抓取技術,從結構化的和非結構化的數據中獲取信息;
4.精通爬蟲和反爬技術,精通http底層協議;精通深度抓取、動態網頁技術抓取、瀏覽器模擬抓取技術等;
5.熟悉分布式系統、多線程
6.具有網絡爬蟲、網頁信息抽取、數據挖掘、自然語言處理、信息檢索、機器學習、web挖掘等搜索引擎等相關經驗優先;
7.計算等相關專業,本科學歷,兩年及以上經驗
職能類別:系統架構設計師 軟件工程師
關鍵字:Java開發工程師 爬蟲 數據
崗位職責:
1. 負責傳統網頁和微博及SNS網站信息高效采集與正確解析;
2. 負責網頁爬蟲架構設計與核心技術研發;
3. 負責互聯網資源的特征挖掘,主要對網頁特征、站點結構、資源變化趨勢等進行數據分析和特征建模;
4. 設計策略和算法,提升網頁抓取的效率和質量,進一步解決系統的網頁排重、垃圾控制、資源劃分等問題;
5.負責美的網絡爬蟲平臺的維護、改正、完善、升級等工作;
崗位要求:
1. 計算機、信息技術或相關專業本科或以上學歷;
2. 有三年以上軟件設計與開發經驗;
3. 精通Java語言編程,熟悉linux平臺;
4. 熟悉XML、JSON、http協議;
5. 精通網頁爬蟲、分布式、多線程開發技術者優先;
6. 有搜索相關領域如網頁抓取/解析、信息挖掘、統計分析等研發經驗者優先;
7. 具有很強的分析和解決問題的能力,攻克難題的強烈興趣,善于學習。
職位描述:
工作職責:
1.進行網頁的實時爬取和結構化。
2.維護爬蟲系統
3.對爬蟲系統進行統計和監控
4.優化爬蟲效率
職位要求:
1.精通http協議,各種web認證機制。
2.一年以上java或python工作經驗
3.為人細心,認真負責。
4.較強的維護能力,想法靈活,有較強的學習能力和團隊合作精神。
職能類別:互聯網軟件開發工程師
職位描述:
爬蟲工程師
工作地點:深圳
工作職責:
1.負責爬蟲程序的設計與實現;
2.現有爬蟲系統的改進;
3.爬蟲正文抽取算法的改進。
工作要求:
1.計算機軟件及相關專業有三年以上的爬蟲程序設計開發經驗;
2.擁有分布式爬蟲經驗優先;
3.熟悉Nutch、Hetrix優先;
職能類別:高級軟件工程師 軟件工程師