奥丽- Fotolia

评估 权衡你正在考虑的技术、产品和项目的利弊。

数据科学领域的工作看似光鲜亮丽,但却需要脏活累活

数据科学家的作用往往被视为今天最迷人和最令人兴奋的工作之一,但在浮华之后,并称好评很多辛劳和艰苦的工作。

这是近五年前的,作者和扬声器汤姆达文波特和高调分析经理D.J.蚀...

共同宣布数据科学家21世纪的最性感工作,他们的预测在当天看起来更加准确。

数据科学家是当今一些最热门技术的幕后推手,比如自动驾驶汽车和人工智能,企业希望从这些变革性技术中获利。

但仅仅因为数据科学的工作在一般意义上令人兴奋,并不意味着每天的每一项任务数据科学职责这是令人兴奋的。

“每个目前的奇妙公司发现数据科学iRobot公司的数据科学主管安吉拉·巴萨(Angela Bassa)说。该公司总部位于马萨诸塞州贝德福德,生产家居清洁机器人。

在塔萨最近开放数据科学峰会的演示文稿中,贝斯纳表示,公司往往正在填补数据科学的工作,即使他们还不确定他们希望人们努力的项目。这意味着很多新雇用的数据科学家他们发现自己的工作是优化遗留系统或处理业务线的临时数据请求。这并不是达文波特和帕蒂尔在2012年设想的数据科学家所做的性感事情,但它可能很重要。

对旧的应用程序的一个新的扭曲

巴萨说,数据科学家应该把他们的标记放在这些类型的工作中,而不是转动他们的鼻子。通过嵌入现代数据科学优化遗留应用可能无法帮助企业创建新的商业模式,但它可以显着改善日常运营。

巴萨说:“当团队对遗留应用程序进行改进和产品化,并使旧的东西更具创新性时,就会产生最好的工作。”“为什么不创新这些应用程序呢?”

如今,数据科学工作的另一个重要但不那么令人兴奋的方面是维护数据质量。在某些情况下,这将是数据工程师的责任,但那些寻找独角兽数据科学家的企业——那些拥有统计、技术和业务领域技能的人——可能希望他们负责这个领域。还有一个事实是,现代机器学习实践需要特定类型的数据,所以数据科学家应该参与确保他们的数据是正确的。

房地产上市网站Zillow的数据科学与工程副总裁Jasjeet Thind在会议上的另一场演讲中说:“数据质量对我们来说是至关重要的,对任何机器学习应用来说也是如此。”

好的数据科学始于好的数据

基于西雅图的Zillow使用机器学习算法比如为用户创建个人列表推荐,广告定位,计算抵押贷款定价和预测住房趋势。其中一个主要的机器学习用例是Zestimate,一个专有模式,估计房屋中的各种功能应该是多少房屋值。该模型包含一个深度学习功能,即观看列表图像以识别属性的条件。

思德说,良好的数据对这一切至关重要。从事推荐引擎和深度学习计算机视觉模型可能是令人兴奋的事情,但如果你没有高质量的数据,你就无法启动这些项目。因此,该公司的数据科学团队维持自己的内部分析模型,以审查数据集的异常值、缺失值和其他潜在缺陷。一旦出现问题,这些模型就会向数据所有者发出警报。

“通过机器学习,您正在谈论数据,流数据,批量数据,并且您需要能够在比例下检测数据中的问题,”Thind表示。

下一步

数据科学工作需求一系列不同的技能

数据科学走得很好在创新和商业价值之间

公民数据科学家的帮助弥补缺乏真正的数据科学

深入了解高级分析软件

搜索数据管理
搜索AWS
搜索内容管理
搜索甲骨文
搜索树液
搜索SQL.服务器
关闭