數據科學家曾一度被認為是成功的職業,但是最近有數據顯示,他們花了大量的時間在整理數據,也就是處理用于分析的數據。他們稱自己是“數據民工”。數據來源于一家眾包公司CrowdFlower,他們調查了80個不同階層的數據科學家。
通常,擁有高學歷的人都想要做數據科學家這樣的工作,但是60%以上的人說,他們大部分的時間都花在清理和組織數據上,花在分析任務、構建訓練幾何、研究算法上的時間很少。
“這個高薪的職位大部分的時間都在整理數據,這對公司來說是一個巨大的浪費。”CrowdFlower的CEO Lukas Biewald說。通過CrowdFlower的調查顯示,整理數據也是數據科學家最不愿意做的工作。這對雙方不利,但是80%的數據科學家表示,他們仍然喜歡自己的工作。
CrowdFlower的調查也顯示出,數據科學家的工作在實際應用中有很大的不足。去年的調查中,79%的人承認這種不足,今年上升到了83%。
想成為數據科學家嗎?CrowdFlower顯示,最需要的技能是 SQL, Hadoop, Python, Java, R, Hive, MapReduce, NoSQL, Pig, 和 SAS。
半數以上的調查者稱,下一個熱門方向會是機器學習。近幾年來很多CEO都憂慮:我們的大數據策略是什么?下一步他們應該問機器學習了。
我們的采集軟件也可以用于對數據庫里的數據進行數據清洗與整理,利用變形腳本實現。
原文:Hottest job? Data scientists say they’re still mostly digital ‘janitors’(譯者/賴信濤 責編/孫思)