管理 学会应用最佳实践并优化您的操作。

数据科学过程:分析应用程序的6个关键步骤

数据科学进程包括一组数据科学家采取的步骤,准备和分析数据并将分析结果呈现给业务用户。

数据是现代企业的生命线。越来越多地,充分利用组织的数据,准确的洞察力和理解对商业成功产生了实际差异。结果,数据科学家已成为各种规模公司的关键雇用,无论工作是其中的专业职位还是嵌入业务部门。

尽管如此,这并不总是清楚我们的意思数据科学家。一种高素质数据分析师吗?一个有科学背景,又碰巧和数据打交道的人?

当然,数据科学家通常在统计和脚本中经历,他们往往具有技术背景,而不是科学,文学艺术或商业。但是数据科学的危急因素 - 这确实使其成为科学而不是商业实践 - 是过程和实验的重要性。

您可能会记得在高中了学习科学方法。科学家们提出了理论和假设。他们设计实验来测试这些假设,然后确认,拒绝或更常见,更好地改进理论。

基本商业智能和报告通常不会遵循此过程。相反,BI和Business Analysts Sift,Sort,Tabulate和可视化数据,以支持业务案例。例如,他们可以以图形方式显示,我们公司在西部地区的产品销售正在下降,而且该地区与其他地区相比,该地区包括更年轻的客户。从那里,他们可以使我们需要改变该地区的产品,营销或销售战略。在BI,大多数有说服力的数据可视化经常带有争论。

数据科学家采用不同的方法。让我们继续使用这个销售示例来展示数据科学过程的工作原理,请参见以下六个步骤。

数据科学过程如何运作
数据科学过程包括这六个步骤。

1.确定对业务有价值的假设

在我们的案例中,数据科学家可以根据销售,营销和产品团队提出的问题制定一个简单的假设:我们认为年轻人不太可能购买我们的产品,因此在相对年轻的西部地区推销销售。

此外,我们可以提出一些相关的假设,例如:西部地区的客户不仅仅是年轻,而且较年轻的人通常赚取的金额少,平均收入比在那里较低,而不是在其他地区较低。

您已经可以看到,数据科学家必须能够思考相关假设的不同含义,以便设计正确的数据科学实验。只是问一个直接的问题,什么时候分析数据通常证明不如询问几个人。为了获得最佳结果,数据科学家应与商业专家合作,挑逗优先案例和能够帮助改进其假设的反例。

2.收集并准备所需的数据

在手中假设或一组,是数据科学家获得正确的数据并准备分析的时候了。

BI团队通常与来自a的数据一起使用数据仓库经过清理、转换和建模,以反映业务规则以及分析人员过去如何看待数据。另一方面,数据科学家通常希望在对数据应用任何规则之前查看数据的原始状态。此外,数据科学应用程序通常需要比存储在仓库中的数据更多的数据。

在我们的示例中,该公司的数据仓库可能包括有关客户的各种细节,但也许不是他们为产品支付的方式:通过信用卡,现金,在线支付等。或者我们可能会发现,因为数据仓库模型可能很麻烦,以便修改,推定的记录系统有点过时,尚未包括较新的付款方式 - 完全是对年轻人有吸引力的种类。

因此,数据科学家需要与IT团队合作,以访问可用的最详细的数据源,并将所需的数据收集到一起。这可能是来自ERP、CRM或其他操作系统的业务数据,但它也越来越多地包括网络日志、来自物联网设备的流数据和许多其他类型的数据。的原始数据通常将被提取和装载 - 或摄取,因为术语具有它 - 进入a数据湖。然而,为简单和便利性,数据科学家最常仅适用于在此早期阶段的样本数据。

这并不是说数据科学家没有数据准备全部工作。肯定,它们通常不会以数据仓库开发人员的方式将业务模型或预定义的业务规则应用于原始数据。但他们确实花了很多时间分析和清洁数据 - 例如,决定如何处理缺失或异常值 - 并将其转换为适合特定的结构机器学习算法和统计模型。

3.试验和调整分析模型

设计实验是数据科学过程中的一个关键步骤。事实上,有些人会说它更像是一个艺术而不是科学。当然,它有助于如果数据科学家对业务有所了解,并且一些洞察会对有趣的变量进行了一些洞察,除了哪种算法可能会提供更有用的结果。

如今,有许多数据科学和机器学习工具可以尝试不同的算法和方法,并选择最佳分析应用程序的方法,而无需多么人为干预。您或多或少地指出了数据的工具,指定您感兴趣的变量并将其留下来运行。经常描述为自动机器学习平台,这些系统主要销售到运作的商业用户公民数据科学家,但它们与熟练的数据科学家一样受欢迎,他们使用它们来调查更多模型,而不是手动可以做更多的模型。

即使是最佳模型也可以通过一些调谐和调整变量来改进。有时,数据科学家甚至可能希望稍微返回和塑造数据稍微不同 - 或许删除初始数据准备阶段期间留下的异常值。例如,我见过许多情况,其中收集了原始数据的默认值,方便而且潜在误导。

4.选择一个模型并运行数据分析

一旦数据科学家找到了对测试数据集运行的最佳算法,就是运行对所有数据进行分析实验的时间。

通过一个有趣的假设,良好的数据和精心构建的模型,数据科学家应该能够找到对业务有用的东西。

结果?好吧,我不能告诉你他们会的东西。但是,有一个有趣的假设,良好的数据和一个精心建造的模型,数据科学家应该能够找到对业务有用的东西。即使在这个阶段,你可能会让自己感到惊讶,有意想不到的发现。最常见的是,您将要么确认或拒绝您的原始假设 - 当然,这是您首先要做的。

回到我们的销售例子,让我们假设我们决定运行的模式证明,是的,年轻人不太可能购买我们的产品——但有一些重要的曲折,这将引导我们进入下一个步骤。

5.向业务涉众展示并解释结果

请记住,我们的实验的全部点是测试一些想法,以便我们可以采取营销,销售和产品设计,为客户提供新的洞察力。

然而,我们拥有的是业务用户可能无法理解的模型中的统计数据。也许一般而言,年轻人确实不太可能购买我们的产品 - 也是他们的平均购买低于老客户的平均购买。但有些年轻人买了很多,导致高中销售水平。

为了帮助业务涉众理解这种复杂性,数据科学家需要另一种技能——不是额外的技术能力,而是一组技能中的一种他们应该具备的软技能。他们必须能够解释分析工作并讲述数据科学实验的故事及其结果。一些企业甚至有数据口译员或分析译者他们专门从事这项重要的任务,用业务术语描述分析模型的含义及其发现。他们和数据科学家一样经常使用数据讲故事技术澄清分析结果和提出的行动。

6.准备和部署用于生产使用的模型

我们现在拥有我们的数据,我们的模型工作以及对我们所发现的内容的良好商业理解。事实上,业务团队甚至想到了如何在我们的网站上提供一些优惠,以吸引西方难以捉摸的年轻客户。现在我们需要采取数据科学工作从实验室开始,并在业务运行的过程中,以运营数据的形式投入生产。

最后一步并不总是那么简单。首先,持续使用新数据更新分析模型可能需要采用不同的数据加载方法。我们手工做的实验在实践中可能并不有效。部分出于这个原因,在许多企业中出现了另一个角色:数据工程师,其职责包括与数据科学家密切合作,使模型可以生产。

我们还应该认识到,在我们的例子中,购买习惯会随着时间的推移而改变,或许会随着经济或品味的变化而改变。因此,我们必须保持模型是最新的,也许将来会再次调整它。这也可能是数据工程师的任务虽然数据科学家必须返回模型,如果它从原始准确性漂移太多。

最后,最适用于实验的模型可能会在实践中运行昂贵。通过在云中越来越多地完成数据分析,我们可以在使用计算和存储时,我们可能会发现一些更改使模型略微准确,但要更便宜。数据工程师也可以帮助,但准确性和成本之间的权衡可能是一个棘手的选择。

数据科学的业务方面

我已经描述了数据科学过程的基本轮廓。如你所见,有一些元素我们可以称之为工程,甚至是艺术。我们还需要记住,在商业世界中,数据科学是一门生意。也就是说,我们实验的目的和这一过程的成功将始终最有效地集中于直接的商业现实。

因此,数据科学通常比您想象的更具协作。它不是一个孤立的技术模糊的纪律,数据科学家在实验室里独自工作。最好的数据科学涉及普遍存在跨业务和IT领域的协作并为组织工作的许多不同方面增加新的价值。

深入挖掘高级分析软件

搜索数据管理
搜索AWS.
搜索内容管理
搜索甲骨文
搜索SAP
搜索SQL服务器
关闭