管理 学会应用最佳实践并优化您的操作。

数据分析中的8种偏差以及如何避免它们

分析可以显示出影响底线的偏见,或者通过歧视煽动社会愤怒。在问题出现之前解决这些偏见很重要。

在分析中,偏见可以以多种方式表现出来,从如何假设和探索问题,到如何对数据进行抽样和组织。

QLIK创新与设计的副副总裁Elif Tutuk表示,“解决偏见的必要性应该是任何与数据一起使用的人。”“如果不小心,可以在任何阶段引入偏差,从定义和捕获运行分析或AI / ML [机器学习]系统的数据集。”

虽然数据科学家永远无法完全消除数据分析中的偏见,但他们可以采取对策来寻找它并在实践中缓解问题。

要避免偏见,首先要认识到这一点存在数据偏见,在数据本身和人们分析或使用它的人中,“寻找人员情报公司的CERAN和创始人Hariharan Kolam说。

数据分析中的偏见存在许多不利影响,从制定不良决策,即直接影响底线,以对参与分析的某些人群产生不利影响。

所有这些问题的根本原因是缺乏对调查目的的关注。Kolam推荐的数据科学家围绕分析的目的达成共识,以避免任何混淆,因为最暧昧的意图通常会导致模糊分析。

: AI放大偏差。
偏见可能导致分析和AI算法中的歪曲。

偏见是如何在分析中表现出来的?

“如果您向数据科学家询问偏见,那么思想所作的第一件事就是数据本身,”Neo4J,图数据库供应商的Neo4J领先产品管理器说。

数据分析中的偏差可能来自人力资源,因为他们使用不具有代表性的数据集,调查中的主要问题并偏见报告和测量。在基于您的数据的决策之前,偏差通常会被忽视,例如构建一个结果错误的预测模型。

医疗数据倾向于过度塑造的白色患者,特别是在新药试验中。因此,对颜色人民的新药物的经验和报告通常最小化。框架表示,这种偏差在Covid-19之后,现在在Covid-19之后,随着药物公司急于完成疫苗试验,框架表示。缺乏多样性就是为什么辉瑞最近宣布他们招募了15,000名患者的试验。

SAS全球产品营销经理萨拉•盖茨(Sarah Gates)表示:“不幸的是,分析中的偏见在社会上的各个方面都存在。”

随着社会对公平的定义不断演变,这也是一个不断变化的目标。最近的一个例子路透社由于Covid-19,国际学士学位计划未能取消其在5月19日的高中生年度考试。IB程序使用算法将算法分配了大幅低于许多学生的等级,而不是使用考试,而不是使用算法。

在商业中,偏见也会因为方式的不同而显现出来数据记录由人。

例如,人力分析公司Visier的首席战略官戴夫•维斯贝克(Dave Weisbeck)表示:“更新CRM数据的销售人员很少愿意自己指出一笔交易失败的原因。”通过更多地考虑数据的来源,你可以减少偏见的影响。

以下是数据分析中的偏差八个示例和解决每个人的方式。

1.传播当前状态

框架表示,数据分析中的一种常见类型的偏置在传播电流状态。

亚马逊(现在退休)招聘工具显示偏好对那些更代表他们现有员工的人。该算法没有明确了解或看申请人的性别,但他们最终被他们看待与性别相连的其他事情偏见,例如运动,社交活动和用于形容成就的形容词。

从本质上讲,AI正在接受这些微妙的差异,并试图找到与他们内部被确定成功的招募的招募。框架表示,良好的对策是提供与您的AI系统的上下文和连接。

2.训练错了

人工智能平台Aible的创始人兼首席执行官阿里吉特·森古普塔(Arijit Sengupta)表示,传统人工智能最大的固有偏见之一是,它被训练的是模型准确性,而不是商业影响,而商业影响对该组织更重要。

根本原因是,该算法是在所有成本和收益相等的假设下建立的。但在商业上,正确预测的好处几乎永远不等于错误预测的代价。如果赢得一笔交易的好处是不必要地追求一笔交易的成本的100倍,那该怎么办?你可能愿意为了一场胜利而追求并输掉99笔交易。如果AI在100次尝试中只获得1次胜利,这将是非常不准确的,但它也可能提高你的净收益。

“数据科学家需要澄清不同成本和福利的相对价值,”他说。

3.低估人口

数据分析中的另一个大偏差源可能发生某些人口是代表性的的数据。总部位于波多黎各的近岸服务提供商Wovenware的首席运营官兼联合创始人卡洛斯·梅伦德斯表示,这种偏见对医学造成了悲剧性的影响,因为它未能突出男性和女性在心脏病症状方面的重要差异。

偏见以性别,种族或经济地位差异的形式出现。当列车算法的数据不考虑到决策的许多因素时出现。Melendez表示,良好的做法来缓解这一点包括使用各种数据科学团队,为数据科学家提供多样性培训和算法偏见测试。

4.错误的解释

“当我们接近分析寻求证明我们的信念或意见时,我们总是可以找到一些支持我们的观点的数据,”威斯贝克说。

医学研究人员通过双盲研究解决了这一偏见,研究参与者和数据收集者不能在无意中这样做影响分析.这更难在业务中进行,但数据科学家可以通过分析偏见本身来减轻这一点。

Weisbeck表示,Vizier进行了内部研究,以了解与性别股权视角的薪酬差异。一种技术是将样本分成数据群体,他们预期的偏见以及它们没有的地方。然后,他们通过观察有男性或女性经理的女性的薪酬调整来比较不同的结果。

第二种方法是查看相关的结果,在这些结果中他们会发现数据中的偏差。关于薪酬公平,他们测试的一个例子是这样一句话:“如果女性在薪酬调整中面临偏见,那么她们在绩效评估中也会面临偏见。”后一种方法利用了偏见往往是一致的这一事实。

5.认知偏见

认知偏见Charna Parkey表示统计偏见,例如抽样或选择偏见,克斯卡达,克斯卡达,机器学习平台。经常分析在可用数据上进行或在数据中发现,而不是仔细构造的数据集。

数据的原始集合和分析师选择要包含的数据或排除的数据创建样本偏差。当聚集的样本数据不代表模型将看到的情况下,选择偏差不是代表模型所看到的真实情况。

从静态事实移动到基于事件的数据源很有用,允许数据随时间更新,以更准确地反映我们所居住的世界。这可以包括移动到动态仪表板和机器学习模型可以被监控以时间来衡量。

“提醒那些建立模型的建立模型 - 以及当他们制作它们时做出决定的人 - 他们易受敏感的认知偏见并向他们提供减轻这些偏差的方法已经显示出减轻无意的偏见,”帕基说。

6.分析偏见

分析偏见往往是由不完整的数据集并在这些数据集周围缺乏上下文。

了解不属于数据集的数据可能会讲述故事的重要性作为馈送分析的数据。
elif tutuk.创新与设计副总裁Qlik

图图克表示:“理解不属于数据集的数据,可能与为分析提供数据的数据一样重要。”

静态数据本质上偏置到它生成的那一刻。为了处理这些挑战,组织需要使用可以访问和关联所有数据的关联数据技术。

业务始终处于恒定的反馈循环中。分析必须实时运行,这意味着由于业务条件不断变化,数据必须进行商业准备就绪和重新分析。数据管理器需要使用它来创建以商业视图为中心的数据的上下文化视图,并用例证反映当时的现实。

7.确认偏见

当研究人员只选择那些支持自己的假设

“最常见的是,我们考虑到了一个先入为主的想法,所以当我们出去寻找统计证据时,我们倾向于只看到支持我们初始概念的概念,”TRG数据中心的高级网络工程师Eric McGee表示,一个扑发提供商。

确认偏误在评价结果时最为常见。

“如果结果倾向于确认我们的假设,我们不会再问出它们,”NTT数据服务的数据智能高级总监Theresa Kushner说。“但是,如果结果不确认我们的假设,我们会超出我们的方式重新评估过程,数据或算法思考我们必须犯了一个错误。”

库什纳建议开发一个检测偏差的过程在向用户发送模型之前。例如,NTT数据服务适用于调用AI道德的治理进程,该渠道可以避免在开发,部署和操作的所有阶段避免偏见。

8.离群值偏差

另一个常见的偏见原因是由其他样本差异的数据异常值引起的。

技术解决方案提供商Entrust Solutions的服务交付和质量主管里克·瓦斯科(Rick Vasko)说,“比如,让杰夫·贝佐斯来分析美国人的平均收入,会因为他的财富而大大扭曲你的研究结果。”

通过确定中位数作为整个数据集的更仔细表示,可以纠正异常值偏差。如果超过10人,他们的银行账户中有10,000美元,其他人的价格低于5,000美元,最具资金的人可能是一个异常值,并应从调查人口中删除,以实现更准确的结果。

有多种人才池和数据集可以帮助解决AI的偏差

向谷歌的产品包含负责人和其他领导学习由于它们提供了有关组织如何将历史上表现出色的员工如何进入设计过程的关键部分的建议,同时创建AI模型以减少或消除该模型中的偏差。

下一步

报告测试清单:在数据分析报告上执行QA

深入了解商业智能最佳实践

搜索数据管理
搜索AWS.
搜索内容管理
搜索甲骨文
搜索树液
搜索SQL.服务器
关闭