定义

非结构化数据

非结构化数据是许多不同形式的信息,这不是传统的数据模型,因此通常不适合主流关系数据库。由于替代平台的出现来存储和管理此类数据,IT系统越来越普遍,并由各种商业智能的组织使用分析应用程序。

传统的结构化数据(例如金融系统和其他业务应用程序中的交易数据)符合刚性格式,以确保处理和分析它的一致性。另一方面,一组非结构化数据可以维护,格式不统一,释放分析团队与所有可用的团队一起使用数据不一定必须先巩固和标准化。这使得能够更全面的分析而不是可能的。

非结构化数据的类型

最常见的非结构化数据类型之一是文本。生成并收集非结构化文本,包括广泛的形式,包括Word文档,电子邮件,PowerPoint演示文稿,调查响应,呼叫中心交互的成绩单以及博客和社交媒体网站的帖子。

其他类型的非结构化数据包括图像,音频和视频文件。机器数据是另一个类别,在许多组织中迅速增长。例如,日志文件从网站,服务器,网络和应用程序 - 特别是移动版本 - 产生一套活动和性能数据。此外,公司越来越多地捕获和分析了来自制造设备和其他物联网的传感器的数据(IOT.)连接的设备。

在某些情况下,这些数据可能被认为是半结构化- 例如,如果添加元数据标签以提供关于数据内容的信息和上下文。不过,非结构化和半结构化数据之间的线路不是绝对的;一些数据管理顾问争辩说所有数据,即使是非结构化的类型,也具有一定程度的结构。

无结曲数据的类型

非结构化数据分析

由于其性质,非结构化数据不适合交易处理应用程序,这些数据是结构化数据省。相反,它主要用于BI和Analytics。一个流行的应用程序是客户分析。零售商,制造商和其他公司分析了非结构化数据以改善客户关系管理流程并启用更多目标营销;他们还进行情感分析,以确定产品,客户服务和公司实体的正面和负面看法,如客户在社交网络和其他论坛上表达。

预测维护是非结构化数据的新兴分析用例。例如,制造商可以分析传感器数据尝试检测在植物地板系统或现场成品的设备之前进行设备故障。还可以使用从IOT传感器收集的非结构化数据来监视和检查能量管道并检查潜在问题。

分析来自IT系统的日志数据突出显示使用趋势,识别容量限制,并针对应用错误,系统崩溃,性能瓶颈和其他问题的原因。非结构化数据分析也有助于监管遵守努力,特别是在帮助组织中了解公司文件和记录包含的内容。

非结构化数据技术和平台

分析公司报告说,生成绝大多数正在生成的新数据是非结构化的。过去,这种类型的信息经常被锁定在淤泥文档管理系统中,单独的制造设备等 - 使其成为已知的内容黑暗数据,无法分析。

但事情发生了改变大数据平台,主要是Hadoop.集群,NoSQL数据库和亚马逊简单的存储服务(S3)。它们提供所需的基础设施,用于处理,存储和管理大量的非结构化数据,而不屏蔽公共数据模型和单个数据库模式,如关系数据库和数据仓库中。

各种分析技术和工具用于分析大数据环境中的非结构化数据。文本分析工具在文本数据中查找模式,关键字和情绪;在更先进的水平,自然语言处理技术是一种人工智能的形式,寻求了解文本和人类演讲中的意义和背景,越来越多地借助深度学习使用神经网络分析数据的算法。在非结构化数据分析中发挥角色的其他技术包括数据挖掘,机器学习和预测分析

这是最后更新的2018年1月

下一步

了解数据分析工具的大部分使用结构化和非结构化数据

学习更多关于Lexmark的感知ECM工具

继续阅读非结构化数据

深入挖掘大数据分析

搜索数据管理
搜索AWS.
搜索内容管理
搜索甲骨文
搜索树液
搜索SQL.服务器
关闭