管理 学会应用最佳实践并优化您的操作。

数据科学家与数据工程师的关键差异

数据科学家和数据工程师经常一起工作,有时职位被视为相同的位置。阅读以了解彼此不同的作用。

数据作业经常会聚在一起。但是,数据科学家与众不同之间存在显着差异。数据工程师。当两个角色被管理层混淆时,公司可以遇到团队效率,系统性能,可扩展性以及将新的分析和AI模型进行各种问题。

公司最大的问题公司正在招聘数据科学家当他们需要更多数据工程师时,大数据学院董事总经理Jesse Anderson表示。

数据科学家是热门新标题他说,随着AI周围的所有炒作。数据工程在幕后发挥着更大的作用,因此他们的努力往往被管理和招聘经理视为可见或理解。

此外,数据科学家们倾向于在提供可操作的信息和对管理的洞察中具有更高的配置文件,因此高管希望更多。问题是普通公司需要更多的数据工程师在幕后设置景点数据科学家富有成效

安德森建议公司可以做的最重要的事情之一,确保数据工程团队在与管理层讨论新的见解时获得适当的信用。这有助于确保正确的投资建起来数据工程团队。

数据科学家和数据工程师职责和技能
看看不同的角色,职责和必要的技能。

实验与软件项目

数据科学家对思考概率和不确定性的思考,数据工程师往往更好地完成项目。

“随着角色在过去两年中发展的角度来说,有很多方法可以暗示,我发现它是有用的:数据科学家运行实验,以及数据工程师运行软件项目,”全球Andy Lamora表示Topcoder的数据,分析和AI的Director,众多编码服务。

数据科学家使用训练有素的了解数学和理论数据科学的分析工具底层,包括离散数学,线性代数和图论,将正确的模型和评估指标应用于问题。

数据工程师通常是数据存储和转换专业人员,解决了围绕令人难以置信的大或快速数据集的问题并呈现有用。

需要两个角色

“大多数云本机类型公司需要五个数据工程师为每个数据师提供数据,以将数据纳入良好数据科学所需的形式和位置,”Karat技术招聘服务技术招聘人员的Head Data Scientics表示。“没有任何角色,数据[那]公司很容易收集只是坐在或未充分利用。”

安德森估计,约有30%-50%的公司具有正确的比例。他经常常用于任务数据科学家的公司数据工程工作

“它导致技术债务,”安德森说。

他曾经遇到的一些问题是数据科学家编写了不规模在生产中的应用程序。经常数据科学家们甚至都不知道他们的局限性

在一个情况下,数据库科学家团队试图扩展图像分析算法,并达到另一个是算法专家的数据科学家。他也无法扩展。数据工程师能够以不同的方式查看问题,并弄清楚如何缩放数据处理基础架构而不是算法以实现所需的结果。

另一个时候,安德森发现了一种数据科学家,编码一个花费15分钟的实验。这是一项实验,一天多次运行,数据科学家最终花了很多时间探索了实验的不同迭代。数据工程师被带入重构实验以在几秒钟内运行,使数据科学家更加富有成效。

公司使用数据工程师来说,它远不太常见做数据科学

在这种情况下探索的一些问题是模型是否准确,是否是作业的正确模型。管理人员需要弄清楚数据工程师是否在统计数据中具有必要的背景,以消除偏差和非统计上显着的结果。

数据科学技能

Hackerrank的联合创始人兼首席执行官Vivek Ravisankar,代码技能测试和招聘服务表示,熟练的数据科学家们对统计数据非常了解一个地区机器学习或AI。他们必须能够建立高度专业化的数学模型,并彻底了解机器学习算法。

优选地,它们在R和/或Python中具有基本的编程技巧,并且很好地了解像MapReduce,Hadoop,Hive,Spark,Gurobi和MySQL等分布式数据计算工具等。

“最好的数据科学家构建有效的模型,使用适当的技术进行不同类型的问题并在增强数据集上进行策略,”拉维斯坦卡说。

维持清洁,广泛的数据集是许多数据科学项目中最大的挑战。数据科学家也必须是具有商业敏锐的优秀沟通者,有一个会议室的存在,能够建立强大的团队来支持他们。

数据工程技能

“数据工程师使数据科学家的工作成为可能,”拉维斯坦卡说。

数据工程师对构建和管理培训数据科学家使用的数据所需的软件开发技能具有更重的重点。如果他们是不建造或管理数据管道,它们是维护数据库和大规模处理系统。由于他们的任务维护数据科学家的工作,他们不仅必须在技术上有效,而且也是团队为导向的。

强大的数据工程师倾向于在软件开发中具有背景,能够舒适地切换和结合技术以实现总体目标。

“他们熟悉数据驱动的团队的需求和允许数据分析师和数据科学家茁壮成长所需的建筑基础,”拉维斯坦卡说。

数据工程师应该在数据工程团队使用的一个或多个框架中具有广泛的背景,例如Hadoop,NoSQL,Spark,Java和Python。最后,他们应该经过验证的经验促进数据可访问性,效率和质量在一个组织内。

“主要数据工程责任是保持数据快速,可访问和安全,”Lamora表示。

根据公司的不同,这可能涉及从安装和管理数据存储系统 - 例如关系或诸如Spark - 创建和管理有用和管理的流和存储引擎富有洞察力的提取物数据进入数据仓库和微服务。

Lamora发现一些公司区分适用于创建和缩放大规模数据商店的技能,以开发数据科学家的数据提取物,但它们属于同一家族技能。

工作前景

数据科学家与数据工程师的机会并没有太多。

“这两个角色的就业前景很棒,”拉莫拉说。

虽然数据平台和云服务在自动化数据工程的许多方面越来越好,但使用或捣碎数据的新边界就会尽快出现。所有这些数据都需要流动或存储,并且需要分析所有这些数据。

“可能会来华体会IM体育 随着更多问题转换为工程,看看需求疲软,但在未来几年内,它不太可能发生,“拉莫拉说。

Hackerrank发现,自2013年以来,对数据科学家的需求已经增长了256%,以及他们的2020年开发人员技能报告发现数据科学家是全球六名招聘经理的近一次招聘优先事项。许多这些候选人来自非计算机科学背景,包括物理,数学和生物学。

“公司需要确保在设计招聘过程时确切地定义他们正在寻找的东西 - 这将使他们能够更快地带来正确技能的候选人,”拉维斯坦卡尔说。

尽管优先增加,但数据科学家平均赚取更多的数据工程师,但并不多。根据Glassdoor,美国为数据科学家的平均薪水与数据工程师分别为113,000美元。

一些数据工程师最终最终开发了数据科学的专业知识,反之亦然。安德森呼召一个人跨功能技能机器学习工程师。获得这些技能可能是一个漫长的过程,这种技巧驱动,舒适地导航数据科学的不确定性与数据工程的严谨性。

下一步

15数据科学工具在2021年使用

深入挖掘大数据分析

搜索数据管理
搜索AWS.
搜索内容管理
搜索甲骨文
搜索树液
搜索SQL.服务器
关闭