如果你想聘請(qǐng)一位專業(yè)的擁有多年經(jīng)驗(yàn)的網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)工程師,建議您考慮樂(lè)思網(wǎng)絡(luò)信息采集系統(tǒng),它在網(wǎng)絡(luò)定向爬蟲(chóng)領(lǐng)域有10多年的經(jīng)驗(yàn),相信一定可以幫到你。
下面的招聘要求中粗體部分,都是樂(lè)思網(wǎng)絡(luò)信息采集系統(tǒng)擅長(zhǎng)的。
職位描述:
1、職位概述
負(fù)責(zé)國(guó)外亞馬遜、淘寶、京東等電子商務(wù)網(wǎng)絡(luò)爬蟲(chóng)的開(kāi)發(fā);網(wǎng)絡(luò)爬蟲(chóng)架構(gòu)設(shè)計(jì)、功能開(kāi)發(fā)及優(yōu)化;網(wǎng)頁(yè)信息抽取等核心算法的研究和優(yōu)化;高性能、分布式網(wǎng)絡(luò)服務(wù)的開(kāi)發(fā)。
2、主要職責(zé)
–參與分布式爬蟲(chóng)和數(shù)據(jù)采集系統(tǒng)的架構(gòu)設(shè)計(jì)和研發(fā);
–參與分布式爬蟲(chóng)模塊服務(wù)架構(gòu)和數(shù)據(jù)存儲(chǔ)架構(gòu)的設(shè)計(jì)和研發(fā);
–參與公司自開(kāi)發(fā)軟件產(chǎn)品的架構(gòu)設(shè)計(jì)和研發(fā);
–參與部門設(shè)計(jì)評(píng)審與代碼審核;
–以技術(shù)專家的身份解決項(xiàng)目中所遇到的核心技術(shù)問(wèn)題;
3、崗位要求
本科或以上學(xué)歷 ,計(jì)算機(jī)軟件或相關(guān)專業(yè)
5年以上JAVA開(kāi)發(fā)經(jīng)驗(yàn);至少3年以上中大型web應(yīng)用系統(tǒng)架構(gòu)設(shè)計(jì)經(jīng)驗(yàn)
2年以上互聯(lián)網(wǎng)或企業(yè)級(jí)網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn);
熟悉Lucene/Nutch/Heritrix/HtmlParser等開(kāi)源工具,熟練使用正則表達(dá)式;
精通Java,精通OOP、UML、設(shè)計(jì)模式能熟練使用Rose建模工具完成軟件設(shè)計(jì);
具備信息檢索、自然語(yǔ)言處理、web挖掘等搜索引擎相關(guān)知識(shí),有從事網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)去重、網(wǎng)頁(yè)信息抽取的開(kāi)發(fā)經(jīng)驗(yàn)
具有大數(shù)據(jù)挖掘、自然語(yǔ)言處理、信息檢索、機(jī)器學(xué)習(xí)背景的優(yōu)先;
熟練使用mysql等常用的數(shù)據(jù)庫(kù)系統(tǒng),對(duì)數(shù)據(jù)庫(kù)有較強(qiáng)的設(shè)計(jì)能力,同時(shí)對(duì)數(shù)據(jù)庫(kù)連接池的使用,線程池技術(shù)等較為熟悉者優(yōu)先考
熟悉OO分析和設(shè)計(jì)模式;
具有電子商務(wù),互聯(lián)網(wǎng)背景者優(yōu)先。
職能類別:高級(jí)軟件工程師 系統(tǒng)架構(gòu)設(shè)計(jì)師
關(guān)鍵字:網(wǎng)絡(luò)爬蟲(chóng) 爬蟲(chóng)
職位描述:
工作職責(zé):
1. 負(fù)責(zé)網(wǎng)絡(luò)爬蟲(chóng)產(chǎn)品的研發(fā)工作;
2. 負(fù)責(zé)各種核心算法的設(shè)計(jì)與開(kāi)發(fā);
3. 負(fù)責(zé)網(wǎng)絡(luò)爬蟲(chóng)采集規(guī)則的編寫;
4. 解決網(wǎng)頁(yè)抓取、信息抽取等問(wèn)題,構(gòu)建高可用性、高擴(kuò)展性網(wǎng)絡(luò)信息收集平臺(tái);
5. 解決封賬號(hào)、封IP采集難點(diǎn)攻克。
職位要求:
1. 計(jì)算機(jī)、信息技術(shù)或相關(guān)專業(yè)本科或以上學(xué)歷;
2. 三年以上開(kāi)發(fā)經(jīng)驗(yàn),熟悉linux平臺(tái);
3. 兩年以上大規(guī)模網(wǎng)頁(yè)爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn);
4. 有分布式爬蟲(chóng)架構(gòu)經(jīng)驗(yàn)者優(yōu)先;
5. 對(duì)算法設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)有深刻的理解;
6. 有很強(qiáng)的分析和解決問(wèn)題的能力;
7. 強(qiáng)烈的責(zé)任心和良好的團(tuán)隊(duì)合作能力。
職能類別:軟件工程師
職位描述:
崗位職責(zé):
1.分析定向數(shù)據(jù)源,制定數(shù)據(jù)抓取方案;
2.定向爬蟲(chóng)的編寫與數(shù)據(jù)抽取;
3.維護(hù)已有爬蟲(chóng)程序。
崗位要求:
1.精通Java 或者 Python, 了解Linux Shell腳本;
2.精通HTTP 及 TCP 底層協(xié)議;
3.有較強(qiáng)的整體布局思維,數(shù)據(jù)框架組合處理能力強(qiáng),對(duì)分布式計(jì)算和儲(chǔ)存有經(jīng)驗(yàn)者優(yōu)先;
4.具有網(wǎng)絡(luò)爬蟲(chóng).網(wǎng)頁(yè)信息抽取.機(jī)器學(xué)習(xí).web挖掘等搜索引擎等任何一種優(yōu)勢(shì)經(jīng)驗(yàn)優(yōu)先;
5.計(jì)算等相關(guān)專業(yè),本科學(xué)歷,一年及以上經(jīng)驗(yàn)。
職能類別:軟件工程師
職位描述:
工作職責(zé):
1.編寫大規(guī)模分布式網(wǎng)絡(luò)爬蟲(chóng)(多線程、分布式調(diào)度、協(xié)議處理);
2.系統(tǒng)解決動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容抓取、深度網(wǎng)頁(yè)內(nèi)容抓取的關(guān)鍵技術(shù);
3.機(jī)器學(xué)習(xí),信息檢索,大規(guī)模數(shù)據(jù)挖掘等工作;
4.負(fù)責(zé)大數(shù)據(jù)高性能分布式處理系統(tǒng)的開(kāi)發(fā)
5.數(shù)據(jù)清洗整理類產(chǎn)品的應(yīng)用開(kāi)發(fā)、優(yōu)化;
6.構(gòu)建和開(kāi)發(fā)在海量數(shù)據(jù)下多維分析的數(shù)據(jù)分析平臺(tái)
職位要求:
1.Java基礎(chǔ)扎實(shí),精通SSH等開(kāi)源框架;
2.熟悉MySql、Oracle、MongoDB一種或多種數(shù)據(jù)庫(kù)開(kāi)發(fā)技術(shù),有較好的數(shù)據(jù)庫(kù)設(shè)計(jì)能力;
3.精通網(wǎng)頁(yè)抓取原理及技術(shù)、深度抓取、動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)抓取、瀏覽器模擬抓取技術(shù),從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
4.精通爬蟲(chóng)和反爬技術(shù),精通http底層協(xié)議;精通深度抓取、動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)抓取、瀏覽器模擬抓取技術(shù)等;
5.熟悉分布式系統(tǒng)、多線程
6.具有網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)信息抽取、數(shù)據(jù)挖掘、自然語(yǔ)言處理、信息檢索、機(jī)器學(xué)習(xí)、web挖掘等搜索引擎等相關(guān)經(jīng)驗(yàn)優(yōu)先;
7.計(jì)算等相關(guān)專業(yè),本科學(xué)歷,兩年及以上經(jīng)驗(yàn)
職能類別:系統(tǒng)架構(gòu)設(shè)計(jì)師 軟件工程師
關(guān)鍵字:Java開(kāi)發(fā)工程師 爬蟲(chóng) 數(shù)據(jù)
崗位職責(zé):
1. 負(fù)責(zé)傳統(tǒng)網(wǎng)頁(yè)和微博及SNS網(wǎng)站信息高效采集與正確解析;
2. 負(fù)責(zé)網(wǎng)頁(yè)爬蟲(chóng)架構(gòu)設(shè)計(jì)與核心技術(shù)研發(fā);
3. 負(fù)責(zé)互聯(lián)網(wǎng)資源的特征挖掘,主要對(duì)網(wǎng)頁(yè)特征、站點(diǎn)結(jié)構(gòu)、資源變化趨勢(shì)等進(jìn)行數(shù)據(jù)分析和特征建模;
4. 設(shè)計(jì)策略和算法,提升網(wǎng)頁(yè)抓取的效率和質(zhì)量,進(jìn)一步解決系統(tǒng)的網(wǎng)頁(yè)排重、垃圾控制、資源劃分等問(wèn)題;
5.負(fù)責(zé)美的網(wǎng)絡(luò)爬蟲(chóng)平臺(tái)的維護(hù)、改正、完善、升級(jí)等工作;
崗位要求:
1. 計(jì)算機(jī)、信息技術(shù)或相關(guān)專業(yè)本科或以上學(xué)歷;
2. 有三年以上軟件設(shè)計(jì)與開(kāi)發(fā)經(jīng)驗(yàn);
3. 精通Java語(yǔ)言編程,熟悉linux平臺(tái);
4. 熟悉XML、JSON、http協(xié)議;
5. 精通網(wǎng)頁(yè)爬蟲(chóng)、分布式、多線程開(kāi)發(fā)技術(shù)者優(yōu)先;
6. 有搜索相關(guān)領(lǐng)域如網(wǎng)頁(yè)抓取/解析、信息挖掘、統(tǒng)計(jì)分析等研發(fā)經(jīng)驗(yàn)者優(yōu)先;
7. 具有很強(qiáng)的分析和解決問(wèn)題的能力,攻克難題的強(qiáng)烈興趣,善于學(xué)習(xí)。
職位描述:
工作職責(zé):
1.進(jìn)行網(wǎng)頁(yè)的實(shí)時(shí)爬取和結(jié)構(gòu)化。
2.維護(hù)爬蟲(chóng)系統(tǒng)
3.對(duì)爬蟲(chóng)系統(tǒng)進(jìn)行統(tǒng)計(jì)和監(jiān)控
4.優(yōu)化爬蟲(chóng)效率
職位要求:
1.精通http協(xié)議,各種web認(rèn)證機(jī)制。
2.一年以上java或python工作經(jīng)驗(yàn)
3.為人細(xì)心,認(rèn)真負(fù)責(zé)。
4.較強(qiáng)的維護(hù)能力,想法靈活,有較強(qiáng)的學(xué)習(xí)能力和團(tuán)隊(duì)合作精神。
職能類別:互聯(lián)網(wǎng)軟件開(kāi)發(fā)工程師
職位描述:
爬蟲(chóng)工程師
工作地點(diǎn):深圳
工作職責(zé):
1.負(fù)責(zé)爬蟲(chóng)程序的設(shè)計(jì)與實(shí)現(xiàn);
2.現(xiàn)有爬蟲(chóng)系統(tǒng)的改進(jìn);
3.爬蟲(chóng)正文抽取算法的改進(jìn)。
工作要求:
1.計(jì)算機(jī)軟件及相關(guān)專業(yè)有三年以上的爬蟲(chóng)程序設(shè)計(jì)開(kāi)發(fā)經(jīng)驗(yàn);
2.擁有分布式爬蟲(chóng)經(jīng)驗(yàn)優(yōu)先;
3.熟悉Nutch、Hetrix優(yōu)先;
職能類別:高級(jí)軟件工程師 軟件工程師