文 | 陈根
人工智能的发展运用离不开数据。比如,演习当前大火的ChatGPT,就须要大量的数据——根据OpenAI表露,ChatGPT的演习利用了45TB的数据、近1万亿个单词,大概是1351万本牛津词典所包含的单词数量。
基于弘大数据集演习而成的ChatGPT得到了前所未有的成功,而ChatGPT想要向前迭代,就须要更多的数据进行演习。但真实天下的数据总归是有限的,并且面临着难以获取、质量差、标准分歧一等诸多问题。在这样的情形下,打算机仿照技能或算法天生的合成数据受到了愈发广泛的关注。作为真实天下数据的廉价替代品,合成数据正日益被用于创造精准的AI模型。
为什么须要合成数据?
顾名思义,合成数据便是通过打算机仿照或人工智能算法合成的数据,这样的数据并不基于现实天下的征象和事宜,但由于在数学上或统计学上,合成数据也能够反响真实天下数据的属性,因此,合成数据可以作为真实天下数据的替代品,来演习、测试、验证AI模型。
2022年以来,Forrester、埃森哲(Accenture)、Gartner、CB Insights等研究咨询公司都已经将合成数据列为人工智能未来发展的核心要素,认为合成数据对付人工智能的未来而言是“必选项”和“必需品”。
比如,Forrester将合成数据和强化学习、Transformer网络、联邦学习、因果推理视为实现人工智能2.0的五项关键技能进展,可以办理人工智能1.0所面临的一些限定和寻衅,诸如数据、准确性、速率、安全性、可扩展性等。
Gartner预测称,到2024年,用于开拓人工智能和剖析项目的数据 60% 将是天生式合成数据,到2030年合成数据将彻底取代真实数据,成为AI模型所利用的数据的紧张来源。MIT科技评论将AI合成数据列为2022年十大打破性技能之一,称其有望办理AI领域的数据鸿沟问题。
数据对付人工智能发展的意义不言自明——如果说以深度学习为代表的智能算法是人工智能运用和发展的“引擎”,那么数据便是用于驱动“引擎”的“燃料”。而合成数据之以是在本日会受到关注,正是由于目前现实天下的数据已经难以知足人工智能连续迭代,并向前发展的数据需求。
要知道,现实天下的数据网络和处理是一种昂贵且缓慢的过程,公司常日无法在短韶光内获取大量的数据来演习准确的模型,就算是获取现实天下的数据也要符合隐私规定,然而,撤除获取本钱高昂以外,特定领域的数据集还受限于用户隐私,极难采集。可以说,现实天下数据的稀缺性已经成为人工智能发展的最大瓶颈——如何高效、廉价并在不陵犯隐私的情形下获取大量数据,成为当古人工智能领域的关键问题之一。
合成数据便是这个关键问题的解法。首先,合成数据能够实现数据增强和数据仿照,办理数据匮乏、数据质量等问题,包括通过合成数据来改进基准测试数据的质量等;其次,避免数据隐私问题,利用合成数据演习AI模型可以避免用户隐私问题,这对付金融、医疗等领域而言尤其具故意义;第三,合成数据还能最大限度地确保数据多样性,更多反响真实天下,提升AI的公正性,以及纠正历史数据中的偏见,肃清算法歧视;第四,合成数据能够应对长尾、边缘案例,提高AI的准确性、可靠性,由于通过合成数据可以自动创建、天生现实天下中难以或者无法采集的数据场景,更好确保AI模型的准确性。
不仅如此,合成数据还具有低本钱的特点。合成数据做事商AI.Reverie指出,人工标注一张图片可能须要6美元,但人工合成的话只须要6美分。总的来说,利用合成数据可以更廉价、更高效、更准确、更安全可靠地演习AI模型,进而极大扩展AI的运用可能性,将人工智能推向新的发展阶段。
用打算机演习打算机
2021年,尼日利亚数据科学公司的研究职员就把稳到,旨在演习打算机视觉算法的工程师可以选用大量以西方服装为特色的数据集,但却没有非洲服装的数据集。于是,这个团队通过人工智能算法成功实现了人为天生由非洲时尚服装的图像组成的数据来办理这一不平衡问题。
可以说,合成数据真正实现了用打算机演习打算机,这也让机器智能向前更进一步。实际上,人类的学习正是遵照着这样的办法,一方面,我们可以从外部信息来源网络知识和不雅观点,比如,通过阅读一本书。但我们也可以通过思考一个问题,自发产生想法和见地,换言之,我们能够通过内部反思和剖析来加深对天下的理解,而不直接依赖于任何新的外部输入。
而人工智能通过合成数据来自我演习,就像是人工智能也无需任何新的外部输入,而是通过合成数据来有效地勾引它们自己的智能。
试想一下,本日的人工智能大模型接管了天下上存在的大量信息和数据,比如维基百科、书本、新闻文章等。如果人工智能能够根据这些数据合成新的数据,然后再将这些合成数据进一步演习来改进自己,那人工智能就将不断迭代,且功能愈发强大。换言之,AI在合成数据构建的虚拟仿真天下中自我学习、进化,这将极大扩展AI的运用可能性。
实际上,用打算机演习打算机的想法并不新鲜,例如,无人驾驶汽车已经在虚拟街道上进行了许多演习。要知道,由于实际道路交通场景千变万化,因此,让自动驾驶汽车通过实际道路测试来穷尽其在道路上可能碰着的每一个场景是不现实的,必须借助于合成数据才能更好地演习、开拓自动驾驶系统。
为此,许多自动驾驶企业都开拓了繁芜的仿真引擎来“虚拟地合成”自动驾驶系统演习所需的海量数据,并高效地应对驾驶场景中的“长尾”问题和“边缘案例”。比如,腾讯自动驾驶实验室开拓的自动驾驶仿真系统TAD Sim 可以自动天生无需标注的各种交通场景数据,助力自动驾驶系统开拓。
在安全的、合成的仿真环境中,打算机可以仿照任何人类想象得到的驾驶场景,诸如调骨气象状况、添加或移除行人、改变其他车辆的位置等等。可以说,合成数据和仿真技能是自动驾驶的核心支撑技能。实际上,最早呈现的一批合成数据创业公司就瞄准的是自动驾驶汽车市场,帮助自动驾驶企业办理其在自动驾驶系统开拓过程中所面临的数据和测试难题。
目前,合成数据还在向金融、医疗、零售、工业等诸多家当领域拓展运用,用打算机演习打算机正在成为人工智能发展的必经之路。
下一次飞跃
由于对人工智能未来发展的巨大代价,合成数据也加速成为AI领域的一个新家当赛道。
一方面,国外的主流科技公司纷纭瞄准合成数据领域加大投入与布局。微软的Azure云做事则推出了airSIM平台,可以创建高保真的(high fidelity)的3D虚拟环境来演习、测试AI驱动的自主翱翔器,微软还开拓了可以天生合成和聚合数据集的开源工具Synthetic Data Showcase,并创建了合成人脸数据库,和国际移民组织(IOM)互助打击人口贩卖。亚马逊则在多个场景探索合成数据的运用,例如利用合成数据来演习、调试其虚拟助手Alexa,以避免用户隐私问题;其合成数据技能Wordforge工具可以用来创建合成场景(synthetic scenes)。
另一方面,合成数据作为AI领域的新型家当,干系创新创业朝阳东升,合成数据创业公司不断呈现,合成数据领域的投资并购持续升温。据国外研究者统计,目前环球合成数据创业企业已达100家。在过去的18个月,"大众年夜众视野中已知的合成数据公司融资总额达到3.28亿美元,比2020年赶过2.75亿美元。
看起来,合成数据是对真实数据稀缺性的主要解法,但这并不代表合成数据毫无问题。首先,虽然高质量的合成数据集不仅可以作为真实数据集的补充,更可以作为演习人工智能模型的紧张数据来源,但在全面运用合成数据集之前,须要充分研究合成数据集与真实数据集的差异,从而避免运用合成数据集带来的偏差。因此,如何评估合成数据集与真实数据集的差异仍是一个有待办理的问题。
其次,合成数据仍存在“非自然数据”的问题。目前大多合成数据技能是基于统计机器学习方法的,由于经典统计学只关注了数据中蕴含的干系性,而忽略了因果性,因此有可能会天生不合逻辑的数据。比如,合成图像中可能会涌现具有非常背景的图像,这类数据被称为“非自然数据”。“非自然数据”对智能算法的影响目前仍旧未知。刻画影响的边界并提早思考应对办法将会是合成数据能否进入风险敏感领域的关键。
末了,合成数据仍旧涉及的隐式隐私透露问题。虽然“合成数据”并不由某个用户产生,但是目前的合成数据仍旧须要借用数据来演习用于合成数据的模型,比如天生对抗网络。由于天生对抗网络构造的繁芜度较高,因此在模型演习的过程中,存在影象原始演习样本分布的可能。已经有最新研究结果表明,可以通过合成的数据反向推断出原始演习样本。以是,数据合成技能存在上述“隐式隐私”透露问题,如何更严密地保护隐私仍是有待探究的问题。
从数据到合成数据,当人工智能能够合成数据,并利用它来连续自我改变,这可能会使迫不及待的数据短缺变得无关紧要。对付人工智能来说,这将代表下一次的飞跃。