数据治理与AI疲劳

AI快讯 1年前 (2024) admin
2,325 0

数据治理和AI疲劳,两个貌似独立的概念,实际上却有紧密的内在联系。本文将强调AI疲劳的两个阶段,并介绍数据治理措施如何推动构建可信赖和健壮的模型。

数据治理的定义

长期以来,数据治理一直是数据行业的核心焦点。Google对数据治理的定义为:“数据治理是确保数据安全、私密、准确、可用和可追溯的一切活动,它包括制定关于数据收集、存储、处理和处置的内部标准,即数据政策。”

数据治理与AI疲劳

这一定义强调了数据治理是关于管理数据的一切,尤其是驱动AI模型的引擎。

AI疲劳的起因

AI疲劳的出现通常源于公司、开发人员或团队在面对挫折和挑战时,导致AI系统的实现失败。这往往始于对AI能力不切实际的期望。关键利益攸关方需要在期望AI的能力和可能性的同时,认识到其局限性和风险。

风险问题通常被认为是事后考虑的,导致放弃不符合规定AI倡议的情况。数据治理在导致AI疲劳方面发挥着关键作用,接下来将详细介绍。

AI疲劳的两个阶段

部署前

在将概念验证(PoC)升级到部署阶段时,许多因素需要考虑,例如解决的问题、确定优先顺序的紧迫性、可用的数据等。在这一阶段,数据科学团队执行探索性的数据分析,揭示底层数据模式,并创建工程特征以加快算法学习。

然而,初步建模可能会表现出性能不佳,导致团队面临疲劳。公司可能会频繁转移业务问题,但如果底层数据缺乏信号,AI算法将难以建立在其基础上。

部署后

即使经过训练的模型在验证集上表现良好,部署后仍可能出现性能下降。这种部署后阶段的AI疲劳通常由于糟糕的数据质量导致。数据质量问题限制了模型在缺少关键属性的情况下准确预测目标反应的能力。

在生产环境中,错误的预测可能由于数据质量差而增加,使得数据科学家和业务团队感到疲劳,对数据管道的信心减弱,项目投资面临风险。

数据治理的关键作用

稳健的数据治理措施对解决这两种类型的AI疲劳至关重要。数据质量是成功实施机器学习算法的关键因素,公司必须在数据质量方面进行投资,并向数据消费者发布报告。

只有通过错误分析,团队才能识别数据质量问题。修复这些问题需要耗费大量时间,因此建议从源头解决数据问题,防止迭代的时间浪费。发布数据质量报告可帮助数据科学团队了解传入数据的可接受质量,确保数据开始输入前就是正确的。

没有数据质量和治理措施,数据科学家将难以应对数据问题,导致不成功的模型和AI疲劳的出现。

结语

本文强调了AI疲劳的两个阶段,并介绍了数据治理措施如何推动构建可信赖和健壮的模型。通过建立坚实的数据治理基础,公司可以构建成功的AI开发和采用路线图,为整个团队注入热情。为了全面概述应对AI疲劳的方法,文中还提到了组织文化的作用,并强调了组织文化与数据治理的结合将加速建立有意义的AI贡献。

版权声明:admin 发表于 2024-01-18 19:03:33。
转载请注明:数据治理与AI疲劳 | ai导航网

暂无评论

暂无评论...