定义

数据采样

数据抽样是统计分析用于选择,操纵和分析代表性数据点的技术,以识别较大的模式和趋势数据集被检查。它启用数据科学家,预测的建模者和其他数据分析师,以统计的小,可管理数量的数据工作人口更快地建立和运行分析模型,同时仍然产生准确的结果。

数据采样的优点和挑战

采样可以特别有用,这些数据集太大而无法完全分析 - 例如大数据分析申请或调查。识别和分析代表性样本比测量整个数据或人口更有效和成本效益。

然而,一个重要的考虑因素是所需数据样本的大小和引入一个抽样误差。在某些情况下,小型样本可以揭示关于数据集的最重要信息。在其他情况下,使用更大的样本可以增加准确地代表数据的可能性,即使样本的增加的尺寸可能妨碍易于操纵和解释。

数据抽样方法的类型

从数据中绘制样本有许多不同的方法;理想的取决于数据集和情况。采样可以基于概率,该方法使用随机数与数据集中的点对应,以确保为样本选择的点之间没有相关性。概率抽样的进一步变化包括:

  • 简单的随机抽样:利用软件从整个人群中随机抽取受试者。
  • 分层抽样:数据集或总体的子集是基于一个公共因素创建的,并且从每个子组中随机收集样本。
  • 整群抽样:较大的数据集被分成子集(簇生)基于限定因子,然后分析了群集的随机采样。
  • 多级抽样:这是一种更复杂的整群抽样形式,它还包括将较大的人口划分为若干组。然后根据一个次要因素得出第二阶段的聚类,然后对这些聚类进行抽样和分析。这宿舍可以继续识别、聚类和分析多个子集。
  • 系统抽样:通过设置从较大人口中提取数据的间隔来创建样本 - 例如,在200项的电子表格中选择每第10行以创建20行的样本大小以分析。

采样也可以基于非可变性,这是一种方法,其中基于分析师的判断来确定和提取数据样本的方法。作为夹杂物由分析师确定,外推样品是否准确地表示比使用概率采样时更难以提外难以推断。

概率采样与非可移植性采样
可以使用概率或非缺乏方法来完成数据采样。

非可行性数据采样方法包括:

  • 简单采样:数据是从易于访问和可用的组中收集的。
  • 连续采样:从满足标准的每个主题中收集数据,直到满足预定的样本大小。
  • 目的性或判断性抽样:研究人员根据预定义标准选择数据以样本。
  • 定额抽样:研究人员确保在数据集或总体的所有子组的样本中有相等的表示。

生成后,可以使用样品预测分析。例如,零售企业可能使用数据抽样来发现关于客户行为和预测建模创建更有效的销售策略。

这是最后更新的2018年9月

继续阅读数据采样

深入挖掘数据分析

搜索数据管理
搜索AWS.
搜索内容管理
搜索甲骨文
搜索SAP
搜索SQL服务器
关闭