alex_aldo——Fotolia

开始 让你自己跟上我们的介绍内容。

12必须具有大数据分析工具的功能

搜索您组织的大数据分析工具吗?以下是在软件评估和选择过程中寻找的12个关键功能。

大数据分析是一个复杂的过程,涉及到数据科学家、数据工程师、商业用户、开发人员和数据管理团队。制作数据分析模型只是这个过程的一部分,而大数据分析工具必须包含各种功能,才能完全满足用户的需求。

例如,采用正确的工具可以减少从云对象存储服务或Hadoop、NoSQL数据库等收集数据集的负担大数据平台分析。正确的大数据技术还可以以达到更有效的分析项目的方式改善用户体验,并最终是更好的业务决策。

以下是12个必须具备的大数据分析功能,可以帮助减少所需的工作量数据科学家和其他用户产生所需的结果:

1.实时分析和报告的嵌入结果

大数据分析举措在分析模型收集的见解可以帮助支持业务决策时,在商业管理人员和经理正在使用其他应用程序时,可以帮助支持业务决策,增加了组织的价值。

“能够将这些见解纳入实时决策过程中最重要的是,”内存数据库提供商VoltDB的首席产品官员Dheeraj Remella说。

这些功能应该包括以一种格式创建见解的能力,这种格式很容易嵌入到决策平台中,该平台应该能够将它们应用于实时数据流帮助你做出即时决定。

2.数据争论和准备

数据科学家倾向于花费很多时间清洁,标签和组织数据,以便为分析用途做好准备。这数据争论和准备过程涉及跨不同数据源的无缝集成,以及包括数据收集,分析,清理,转换和验证的步骤。

数据库和医疗保健软件供应商InterSystems的数据平台产品和行业营销总监Joe Lichtenberg表示,大数据分析工具必须支持全面的数据类型、协议和集成场景,以加快和简化这些数据处理步骤。

3.数据探索

大数据分析通常涉及一个特殊的数据发现和探索阶段。有时被认为是数据准备的一部分,探索底层数据是有帮助的数据科学团队了解问题的业务背景并制定更好的分析问题。帮助简化此过程的功能可以减少对杂草错误的数据测试新假设的努力更快,并简化在数据中掩埋的有用连接的发现。

此外,它们应该使与同事在数据集上协作变得更容易。BI和分析供应商Tableau的技术专员Andy Cotgreave说:“工具必须支持探索和协作,使所有技能水平的人能够从多个角度快速地看待数据。”

强大的数据可视化功能也可以帮助数据探索过程;有时,即使是数据科学家们也很困难,在没有首先可视化数据的情况下,对数据集的表面有用的见解。

大数据分析工具的关键功能清单
这是一个顶级大数据分析功能的浓缩列表。

4.支持不同类型的分析

有很多方法可以将大数据分析技术应用到生产中,从基本的BI应用到预测分析,实时分析,机器学习和其他形式的高级分析。每种方法都提供不同类型的业务价值。良好的大数据分析工具应该是功能性的,并且足够灵活,以支持这些不同的用例,以最小的努力,而不会在采用单独的工具时经常需要进行再培训。

5.可扩展性

数据科学家通常可以在小数据集上长期开发和测试不同的分析模型。但是,预测和机器学习模型这些努力的结果需要经济运行,而且往往必须迅速产生结果。这就要求大数据分析系统支持高水平的可伸缩性,以便在生产中吸收数据并处理大型数据集,而无需支付过高的硬件或云服务成本。

“从小数据集中缩放算法的工具,大量努力也是至关重要的,”地理空间分析供应商Descartes Labs市场预测的商业领导者表示是至关重要的,“Eduardo Franco表示。“这么多时间和努力都在制作这种过渡时,因此自动化这是一个巨大的帮助。”

6.版本控制

在大数据分析项目中,可能参与调整分析模型的参数的几个数据科学家和其他用户。一些所做的一些更改可能最初看起来很有希望,但它们可以在进一步测试或被推入生产时创造意外问题。

内置大数据分析工具内置的版本控制功能可以提高跟踪这些更改的能力。如果稍后会出现问题,它们还可以更轻松地将分析模型滚动到以前工作的先前版本。

“如果没有版本控制,单个开发者做出的一个更改可能会导致所有已经创建的内容崩溃,”预售工程副总裁、安全日志和分析平台提供商Devo Technology的前数据主管查尔斯·阿米克(Charles Amick)说。

7.简单的数据集成

数据科学家和开发人员花在定制集成以连接分析系统到数据源和业务应用程序上的时间越少,他们花在改进、部署和运行分析模型上的时间就越多。

简单的数据集成和访问功能也使与其他用户共享分析结果更容易。大数据分析工具应提供内置的连接器和开发工具包,可轻松集成与现有数据库,数据仓库,数据的湖泊以及应用程序——包括本地和云中的应用程序。

8.数据管理

大数据分析工具需要强大而高效数据管理Plangtics咨询Abisam Solutions的数据科学总监Tim Lafferty表示,平台是确保所有可交付成果的连续性和标准化。随着数据的大小增加,其变化通常如此。数据集可以包括需要协调的大量不一致性和不同的格式。

强大的数据管理功能可以帮助企业维护单一的真理来源,这对于成功的大数据举措至关重要。它们还可以提高用户数据集的可见性,并为他们提供指导。例如,推送通知功能可以主动提醒用户陈旧数据,持续维护或更改数据定义。

9.数据治理

数据治理特性在大数据分析工具中也很重要,可以帮助企业实施内部数据标准,遵守数据隐私和安全法律。这包括能够跟踪用于构建分析模型的数据集的来源和特征,这有助于确保数据被数据科学家、数据工程师和其他人正确使用,以及识别隐藏的数据数据集中的偏见这可能是歪曲的分析结果。

有效的数据治理对敏感数据特别至关重要,例如受保护的健康信息和受私权法规的个人身份信息。例如,某些工具现在包括能力匿名数据,允许数据科学家根据个人信息构建模型,符合GDP和CCPA等法规。

10.支持数据处理框架

许多大数据平台专注于分析或数据处理。一些框架 - 类似Apache Spark - 支持两者,这使得数据科学家和其他人能够使用相同的实时流处理平台;复杂的提取物,变换和负载任务;机器学习;并在SQL,Python,R和其他语言中编程。

大数据分析工具需要与各种处理引擎具有联系,这些引擎可以帮助组织构建数据管道,以支持分析模型的开发,培训和实施。这很重要,因为数据科学是一个高度迭代的过程。数据科学家在到达投入生产的人之前可能会创建100个型号,这是一个经常涉及丰富数据以改善模型的结果。

11.数据安全

过度数据安全可以劝阻与分析数据的接触。但是,包括精心设计的安全功能的大数据分析工具可以解决对数据泄露的疑虑,同时也鼓励适当的数据使用情况。让平衡右转是至关重要的建立数据文化真正成为一个数据驱动的组织。

要实现这一点,需要提供对大数据集和其他细粒度安全控制的基于角色的访问。此外,帮助标记个人信息的功能可以使数据处理和共享更容易,符合GDPR、CCPA和其他隐私法规。

12.数据可视化、仪表板设计和报告

最终,数据科学家和分析师需要将大数据分析应用程序的结果传达给商业管理人员和工人。为此,他们需要集成的工具来创建数据可视化,仪表板和报告,以及管理数据可视化和仪表板设计过程的功能。

例如,众多可视化技术可以应用于数据集,但必须以商业用户可以理解的方式呈现信息。此外,太多的可视化可以堵塞仪表板,并“向快速寻找信息的用户压倒性”,“Tableau的高级营销福音学家Ashley Howard Neville说。

功能可用,使可视化和仪表板设计人员能够根据需要提供更多信息并添加上下文。示例包括添加具有附加数据或可视化的工具提示叠加层,以及显示或隐藏导航按钮,过滤器和其他设计元素的选项。

下一步

了解这一点发布的发布概念以及它如何用数据分析模型帮助组织

如何对大数据应用进行性能测试

深入挖掘大数据分析

搜索数据管理
搜索AWS.
搜索内容管理
搜索甲骨文
搜索树液
搜索SQL.服务器
关闭