咨询公司Rockborne首席实行官Waseem Ali表示,纵然有实践履历,事情也很随意马虎出错。
“统统总是从数据开始的,如果你的数据不好,模型就不会好。

相反他建议,很多时候,企业面临的寻衅不应该是想要用他们的第一个项目征服天下,而是前辈行试点,让他们能够走得更远。

检讨数据或数字项目的详细业务需求和哀求,讯问须要办理什么问题,须要查询什么“预感”,但首先要避免深入研究“全局影响”。

正如工业物联网专业公司Hexagon的AI卖力人Johannes Maunz所阐明的,从第一原则开始动手获取特定用例的数据。

企业AI若何构建AI数据集

Maunz说:“没有一个深度学习模型可以办理所有用例。
快要况与须要改进的地方进行比较,须要捕获哪些可用数据?以小规模或有限的办法进行,仅针对那一个用例。

Hexagon的方法常日侧重于自己的传感器,个中包含墙壁、窗户、门等建筑的数据。
通过在浏览器中呈现的内容,Hexagon可以理解数据及其标准、格式、同等性等。

首先考虑企业已经拥有的、或者可以利用的、符合哀求的数据和数据集。
这常日须要与法律和隐私团队密切互助,纵然在工业内部环境中也是如此。
Maunz建议,要确保指定利用的数据不包含任何私人个人信息。
然后,企业就可以构建他们想要利用的模型并对其进行演习——假设本钱和可行性都已经到位。

接下来,你须要决策点透明度,以及旗子暗记值来评估可用性、可行性和业务效果等成分,或者潜在表现与竞争对手比较的数据等。

对付企业目前没有的数据,可能须要一些互助伙伴或客户协商来获取。

Maunz表示:“坦率地说,人们是非常开放——但总要有一份条约。
只有这样,我们才能开始我们常日所说的数据活动。
有时候超过所需量的数据也是故意义的,这样企业就可以进行向下采样。

数据质量和大略性至关主要

供应链咨询公司BearingPoint的合资人Emile Naus强调了对AI/ML数据质量的关注。
要尽可能保持大略,繁芜性使精确的决策变得困难并且会危害结果——然后还有偏见和知识产权须要考虑。
Naus补充说:“内部数据并不完美,但至少你可以理解它有多好。

他警告说,与易于利用的2D线拟合乃至3D线拟合比较,由AI/ML驱动的繁芜多维线拟合可以带来更好的结果——优化生产、办理方案“配方”、最大限度地减少摧残浪费蹂躏等等——如果企业能够“自由”地获取所需的数据。

“和所有的模型一样,由于AI模型被用于构建另一个模型,而模型总是出错,因此数据管理是关键。
你没有的部分实际上可能更主要,你必须弄清楚数据的完全性和准确性。

邓白氏(D&B)数据和剖析高等副总裁Andy Crisp建议利用客户洞察和关键数据元向来建立数据质量标准和公差、丈量和监控。

Crisp表示:“例如,[客户想要的、或从我们这里得到的]数据也可能会为他们的模型供应信息,我们正在进行大约460亿次数据质量打算,获取我们的数据,然后可能根据这些标准再次进行打算,然后每月发布数据质量不雅观察结果。

例如,通过特定标准,特定属性必须表现得足够好,才能通报给下一个团队,团队采取这些标准和公差、这些丈量和不雅观察点的结果,与数据管理部门互助获取、整理和掩护数据。

“花韶光干事并加深理解,别无他法。
这就像,从切割一块木头开始,然后检讨长度,防止接下来你完备缺点地切割了50块木板。

企业须要“知道什么是好的”,以提高数据性能和洞察力,然后将它们整合在一起。
保持问题陈述的严谨性,缩小所需数据集的数据识别范围。
细致的注释和元数据可以实现掌握数据集的管理,实现真正科学的方法,识别偏差并帮助最大限度地减少偏差。

严防将多个成分混为一谈的大胆陈述,确保要“测试到毁坏”,这是IT企业不想“快速行动并冲破常规”的一个领域。
所有利用的数据都必须符合标准,而且必须不断检讨息争救。

“丈量和监控,补救和改进,”Crisp指出,邓白氏的质量工程团队是由环球约70名团队成员组成的,“高质量的工程能力将有助于减少幻觉等。

Informatica北欧、中东和非洲地区副总裁Greg Hanson也认为,制订目标至关主要,可以帮助企业确定如何最好地利用韶光进行信息编目、信息整合、演习AI以支持结果所需的数据。

纵然是企业自己的数据常日也会分散并隐蔽在不同位置、云或本地环境中。

Hanson说:“对所有数据资产进行编目,理解这些数据所在的位置,也可以考虑利用AI来加快数据管理的速率。

确保在采集数据之提高行管理

在AI引擎采集数据之前要履行所有的数据质量规则,并假设已经采纳了适当的管理和合规性。
如果企业没有进行衡量、量化和修复,那么只会更快地做出错误决策,Hanson补充说:“记住:垃圾进,垃圾出。

数据套件厂商Precisely的首席技能官Tendü Yogurtçu表示,根据规模和行业类型,企业可以考虑成立辅导委员会或跨职能委员会,帮助定义所有干系AI操持的最佳实践和流程。
也可以通过识别团队之间的常见用例或模式来帮助加速进程,随着组织从试点和生产中学习,这些用例或模式本身也会持续发生变革。

数据管理框架可能须要扩展以涵盖各种AI模型。
话虽如此,潜在的AI用例比比皆是。

“以保险行业为例。
为了仿照风险和定价准确性,保险公司须要有关野火和大水风险、地块地形、地块内建筑物的确切位置、与消防栓的间隔以及与加油站等潜在危险点的间隔等详细信息,”Yogurtçu阐明说。

然而,咨询公司Slalom的高等数据和剖析卖力人Richard Fayers警告称,构建AI模型(尤其是天生式AI)可能会花费不菲。

“大概,在某些领域企业可以互助——比如法律或医学,我们开始看到代价的地方,便是当你用你的数据增强天生式AI的时候——你可以用各种方法来实现它。

例如,在建筑领域,用户可以利用自己的数据集和文档来补充大型措辞模型,以供查询。
类似做法还有票务搜索平台,平台可以智能地考虑一组基于自然措辞的标准,这些标准并非与元数据和标签逐一干系。

“例如,你可以利用一个票务平台来创造‘适宜儿童不雅观看的周末演出’,目前这种搜索类型是相称困难的,”Fayers说。

他说,纵然是ChatGPT之类的数据集构建和提示工程,为了实现更有“对话性”的方法,仍旧须要关注数据质量和管理,提示工程将成为一项需求兴旺的基本技能。