banner

你不知道的数据工程师:80% 时间都在做「大数据苦工」

作者: 大数据观察来源: 大数据观察时间:2017-01-31 17:56:250

沙龙君引读:以为数据工程师每天做的就是像 http://hackertyper.net/ 这样,然后创造了一个又一个伟大的产品吗?错了!纽约时报记者采访了多位大数据工程师,他们表示自己 80% 的时间都在当「大数据苦工」,干的都是非人类可以想象的枯燥繁琐的工作——从海量的原始数据中提取有用数据,整理,转换格式,调整为算法可以理解的同样格式的规整数据……

因此,这些数据工程师称呼自己为「数据清洁工」、「数据搬运工」,「数据整形师」等等……知名健康追踪手环公司 Jawbone 的数据科学副总裁 Monica Rogati 向记者透露,对于大部分人,甚至是普通的程序员来说,这种工作都是极端枯燥,完全接受不了的,但对于数据工程师来说,这都是他们每天都要做的事情。

华盛顿大学教授,同时也是一家大数据创业公司 Trifacta 创始人的 Jeffrey Heer 教授则表示,直接把算法输入到一堆原始数据中,然后指望结果能够自己蹦出来,那简直就是奇谈……数据工程师需要把不同种类不同格式的数据(非常巨量)转换成为算法可以理解的格式整齐的数据,因此称呼数据工程师为「数据清洁工」也不足为奇。

Iodine 是一家医疗方面创业公司。该公司的员工透露,自己的产品能够通过挖掘国家食药管理局(FDA)、国家健康中心,以及医药公司提供的文字、图像等内容提供的原始数据,来为用户提供药品的副作用相关的警示。但事情远没有想象的那么简单。

光嗜睡一条就有「drowsiness」、「somnolence」和「sleepiness」三种说法,让用户去看这三个词肯定都能理解,但别指望算法能够理解这三个词代表同一个含义。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限