这一技能的涌现,是 AI 领域在提高模型准确性和可靠性方面的新考试测验。

大模型作为近年来 AI 领域的重大打破之一,已经在代码天生、内容天生等多个领域得到广泛运用,为个人和企业节省了宝贵的韶光和资源。

然而,即便取得了显著的进展,这些模型在处理涉及数值、统计数据或其他事实干系的问题时,仍旧存在产生“幻觉”的方向。
所谓“幻觉”,是指模型有时会呈现不准确的信息。

谷歌的研究职员指出:“(我们)已经识别出造成这些征象的几个缘故原由,包括大模型天生的实质上具有概任性,以及演习数据中缺少足够的事实覆盖等。

谷歌推出DataGemma解决幻觉问题并提升AI模型数据靠得住性

即便是传统的事实验证方法,在处理涉及逻辑、算术或比较操作的统计查询时,效果也每每不佳。
这是由于统计数据分布在各种不同的模式和格式中,须要相称多的背景(高下文)知识才能精确阐明。

为理解决这些问题,谷歌研究职员用到了 Data Commons 平台。
该平台是公开可用的知识图谱,共包括 2400 亿多个可信组织丰富数据点,它们来自联合国、天下卫生组织、疾病掌握与预防中央和人口普查局等。

他们通过两种不同的方法将其与 Gemma 系列措辞模型结合,从而开拓出了新的 DataGemma 模型。

该模型采取两种独特的方法,来提高其在处理统计数据时的准确性:检索交错天生(RIG,Retrieval Interleaving Generation)方法和检索增强天生(RAG,Retrieval Augmented Generation)方法。

个中,RIG 方法通过比较模型的原始天生结果与存储在 Data Commons 中的干系统计数据,来提高事实准确性。

详细来说,经由微调的大模型会天生描述性的自然措辞查询。

然后,一个多模型后处理管道将这个查询转换为构造化数据查询,实行后就能从 Data Commons 中检索干系的统计答案,从而支持或纠正大模型的天生结果,并供应干系引用(证据)。

另一种 RAG 方法是许多公司已经在利用的技能,用于帮助模型整合演习数据之外的干系信息。

在 DataGemma 中,经由微调的 Gemma 模型利用原始统计问题来提取干系变量,并为 Data Commons 数据库天生自然措辞查询。
实行这个查询指令,就会得到干系的统计数据或表格。

一旦提取了这些值,它们就会与原始用户查询一起被当做提示的一部分,输入到一个长高下文大模型(在这种情形下是 Gemini 1.5 Pro)中,进而天生具有高度准确性的终极答案。

在对 101 个人工天生的查询进行测试时,利用 RIG 方法微调的 DataGemma 将基线模型 17% 的事实准确率提高到了约 58%。
虽然利用 RAG 方法的结果略显逊色,但仍旧比基线模型有所改进。

DataGemma 模型能够回答 24-29% 的查询,供应来自 Data Commons 的统计相应。
对付这些相应中的大多数,大模型在数字方面的回应常日是准确的(99%)。

然而,在精确推断这些数字的含义时,它仍旧有 6% 到 20% 的失落误率。

只管如此,RIG 和 RAG 都能有效地提高模型在处理统计查询时的准确性,特殊是与研究和决策干系的查询。

它们各有优缺陷,RIG 速率更快但细节较少(由于它检索单个统计数据并验证),而 RAG 供应更全面的数据,但受到数据可用性和处理大量高下文能力的限定。

通过公开拓布 DataGemma 及其 RIG 和 RAG 方法,谷歌希望推动这两种方法的进一步研究,并为构建更强大、更有根据的模型开辟道路。

该公司对媒体表示:“我们的研究正在进行中,我们致力于在扩大这项事情规模、对其进行严格测试,并终极将这种增强功能整合到 Gemma 和 Gemini 模型中时进一步完善这些方法,最初将通过分阶段的限定访问办法推出。

通过将这一最新的 Gemma 模型变体再次作为开放模型共享,谷歌希望促进这些技能的广泛采取,并在事实数据根本上对大模型进行验证,更好地应对大模型的“幻觉”问题。

总体来说,提高大模型的可靠性和可信度是确保它们成为每个人不可或缺工具的关键,也为 AI 能够供应准确信息、促进明智决策和加深对周围天下的理解建立根本。

参考资料:

https://blog.google/technology/ai/google-datagemma-ai-llm/

https://venturebeat.com/ai/datagemma-googles-open-ai-models-mitigate-hallucination-on-statistical-queries/

运营/排版:何晨龙