Sergey Nivens - Fotolia

管理 学会应用最佳实践并优化您的操作。

今天的顶级数据管道管理挑战

IT高管表示,定价模型,敏捷和审计性是他们在管理当今日益复杂的数据管道方面所面临的一些最大挑战。

今天的数据管道管理并不容易 - 特别是因为机器学习模型获得普遍存在。

其中一个问题是现有的分析和数据科学平台并不总是适用于今天的现代化机器学习应用。它们通常不足以提供连续和快速列车机床学习模型所需的实时数据。

相反,数据科学团队可以花费大量时间构建复杂的数据管道,然后转换数据培训模型在更新的数据上。这种复杂性,以及管道中的重量数据和数据分析工具的定价模型,可以妨碍敏捷性,互动性和整体组织效率。在这里,IT高管分解了他们在数据管道管理中面临的挑战。

数据平台定价模式

该公司技术副总裁Len Greski表示,数据管道管理面临的一个挑战是,许多商业平台按数量收费旅游信息公司Travelport。该公司目前每天处理超过100兆兆字节的数据。

“如果您根据您的数据量度支付更多费用,您将基本上增加了业务流程税,”Greski说。“[在数据流水线中的产品[与许多]产品,成本可以快速加起来。”

他说,旅行者目前正在重新评估其数据策略,根据数据科学申请的总产成本与它产生的经济价值相比,他说。这意味着例如,将更多资源放入搜索中的最高值区域。“如果您获得更好的搜索体验,您可以提高转换率,”Greski说。

Travelport目前使用自制、开源和商业工具的组合来帮助其数据管道管理和解决反复出现的问题。这些工具包括诸如IBM MQ从Apache Kafka到Hadoop和微软Azure等其他工具,用于数据存储和数据科学功能。根据Greski的说法,微软Azure的一些新工具允许创建复杂的、大容量的数据管道,但也有一些权衡。

复杂性使得系统更容易失败……如果你必须与1000家酒店和1000家航空公司建立关系,那么管理所有这些联系所需的工作量是昂贵的。
Len Greski.Travelport技术副总裁

“复杂性使得系统更容易出现故障,”他说。“如果你必须做出改变,改变这个系统的成本会更高。如果你必须与数千家酒店和航空公司建立关系,那么管理所有这些联系所需的努力是昂贵的。”

Greski说,这不是Azure唯一的定价关注。企业支付管弦郎的使用费,数据移动有各种执行费用,用于管道中的工作,以及与Azure的工具交互。

还有将云工作负载与那些集成的挑战遗留应用程序, 他说。

开源工具有助于解决一些成本问题,但也有其缺点。

“如果您使用开源工具,您必须在学习如何有效地使用它们以及如何使它们运行和扩展方面进行重大投资,”Greski说。“然后,当你有问题时,你如何获得技术支持?”

敏捷挑战和软件2.0

数据和业务敏捷性是有效数据流水线管理的另一个障碍。随着AI从作为一次性的附加功能或试点项目移动到核心业务流程,数据成为新软件。Tesla的AI Director Andrej Karpatpy称之为“软件2.0。“如果AI模型没有提供所需的结果,则该解决方案不一定要在模型中重写代码,而是要查看培训数据以识别间隙或偏差。

Greski的说法,获得更好的结果需要更好,更具聚焦的数据,更好的标记和使用不同属性的使用。这也意味着数据科学家和数据工程师需要成为软件开发过程的一部分。在过去的一年中,Travelport一直在将数据科学家集成到其释放列车中。这确保了数据科学工作是一个“整体产品的自然部分而不是偏离侧面,”Greski说。

另一家完全改组了开发团队的公司是总部位于奥斯汀的培训数据公司Alegion。Alegion利用众包员工对Airbnb、嘉信理财(Charles Schwab)、家得宝(Home Depot)和沃尔玛(Walmart)等公司的培训数据进行分类。

直到两年前,该公司使用基本统计数据跟踪哪些工人最准确或最富有成效。2017年,该公司开始了在它的分类中添加智能的过程。例如,在最清晰的例子中,机器学习可以取代第三个工作人员,而不是让三名工作人员看一幅特定的图像来确定它是猫还是狗。减少三分之一的人力需求,同时保持——甚至提高准确性——将为客户带来巨大的利益和成本节省。

“这是一个范式变革,”纳撒尼尔盖茨,阿莱戈尼联伙伴和首席执行官说。“而不是让工人尽可能高效,而是我们培训我们自己的神经网络来增加并提供自己的判决程度。”

但是数据分类由于客户需要新数据以满足自己的AI需求,因此allegion处理不断变化的问题。有聊天机器人的自然语言处理例如,空中摄像机或自动车辆的视频注释。最重要的是,在现有数据中不断发现新的Edge计算案例,需要重新培训Alegion的内部机器学习模型。

客户可能还想对他们正在收集的数据尝试不同的模型,可能需要让Alegion查看相同数据的不同属性。盖茨说,一些客户可能会同时测试和培训30种不同的型号。

这意味着对于自己的模型开发,需要保持稳定的变化流。这不是问题建立机器学习一旦有了技术,设置好,让它运行。该公司派出了10名软件工程师进行机器学习培训,并聘用了6名已经是机器学习专家的工程师。Alegion将新员工与现有工程师整合在一起,这样机器学习就可以渗透进来。

您的数据管道是多么令人疑问?

治理,可测试性和透明度也是数据管道管理中出现的一些主要挑战。例如,采用培训数据集的问题。公司收集巨大的数据,一些用于培训模型的数据。当技术咨询和系统集成公司洞察力的数据和AI时,该模型通过略微不同的数据进行了令人恢复略有不同的数据。

使用哪些数据培训模型的每个版本?保持副本培训数据为培训过程的每次迭代设置可以快速导致巨大数据集和不必要的复杂数据流水线。

“应标记培训数据,以便系统可提供可证明和可审计,”Seier表示。“大多数第三方供应商在所需数据管理的复杂性方面几乎没有划伤表面。开源工具和商业工具并不近。”

当数据来自多个来源或第三方方面,标记变得更加问题。许多公司还删除了他们不再需要的数据,如果数据已被用作训练数据集的一部分,则是一个问题,并且再次需要技术,法律或合规原因。

“数据需要冻结的业务复杂性是巨大的,”Seier说。

然后有转换和重组数据的问题。例如,在培训图像识别系统之前或创建新的合成图像之前,公司可能会修复图像上的对比度,以便它们具有更多样化的培训集。公司应该拯救所有这些转换后的数据或者将其从数据管道中全部删除?

面临此问题的公司具有构建或等待的困境。Seier说,供应商通常落后两到三年的需要,但从头开始建立这些系统可能是昂贵且耗时的。

“这取决于商业市场,”Seier说。那些认为新人工智能项目没有机会创造运营效益或获得巨大市场份额的公司,或者那些处于发展较慢的行业的公司,可能想要等待供应商迎头赶上。”

“但一个颠覆者就能让一个行业从慢变快,”他说。

下一步

Flatfile希望成为数据加载的通用转换器

深入了解人工智能和分析

搜索数据管理
搜索AWS
搜索内容管理
搜索甲骨文
搜索树液
搜索SQL.服务器
关闭