如何避免 AI 天生虚假的事实内容,对利用者产生误导呢?各个大模型平台一贯在研究和考试测验,而要想“避免”问题,首先得“识别”问题。6 月 19 日,牛津大学一个研究团队揭橥在《自然》杂志上的一项新研究,提出了一种颇有潜力的给AI“测谎”的方法,下面咱们就详细聊聊。
大模型的胡说八道和风险
“幻觉”(Hallucinations)是大措辞模型(例如 ChatGPT、Gemini、或文心一言)面临的一个关键问题,也是网络上常见的用户体验吐槽类型之一,这个术语可以粗略地理解为 AI 不苟言笑的胡说八道。
比如,你问 ChatGPT:恐龙扛狼是什么意思?
它会不苟言笑地见告你——这象征着旧势力和新力量的对抗,是弱小但机警灵巧的寻衅者和强大却缺少灵巧的对手之间的博弈。
答案非常洗涤灵魂,上升到哲理和代价不雅观高度,但是,它在胡说八道。
点击输入图片描述(最多30字)
这只是大措辞模型常见的“幻觉”类型之一,其他类型还包括:
1
缺点的历史事实
“谁是美国的第一位总统?” ChatGPT 回答:“托马斯·杰斐逊。”
2
缺点的科学信息
“水的沸点是多少?” ChatGPT 回答:“水在标准大气压下的沸点是 120 摄氏度。”
3
编造引用,AI 缝合怪
“爱因斯坦在相对论中说了什么?” ChatGPT 回答:“爱因斯坦曾在《相对论与现实》一书中说过,‘韶光是一种幻觉’。”虽然爱因斯坦的确谈论过期光的相对性,但他并没有在所谓的《相对论与现实》一书中揭橥这句话。实际上,这本书可能根本不存在。这是模型编造的引用。
4
误导性的康健、法务、财务建议
你问:“感冒了该当吃什么药?” ChatGPT 回答:“感冒了该当吃抗生素。”
除了上述问题,相信大家在利用 AI 的过程中也会碰到其他胡说八道的情形。只管各个大模型都在积极处理这类问题,上面举的例子很多可能也已经得到了修复,但这类问题一贯难以找到“根治”或“打消”的办法,在考验判断上也每每须要人工反馈或数据集标注,这会带来不低的本钱。
这让我们利用 AI 的体验大打折扣——谁敢毫无保留地信赖一个满嘴跑火车的助手呢?何况有些问题事关康健和安全,弄错可是要出大事的。
有没有什么办法,能更通用化地“打算”出 AI 到底有没有瞎说呢?
“语义熵”如何帮助大模型检测谎话?
日前(6 月 19 日),牛津大学团队在《自然》(Nature)杂志揭橥了一篇论文,提出了一种新的剖析和打算方法,为办理大措辞模型“幻觉”问题,打开了新思路。
点击输入图片描述(最多30字)
图源:《自然》(Nature)官网,中文翻译来自浏览器插件“沉浸式翻译”
团队提出了一种基于统计学的熵估计方法,称为“语义熵”,来检测大措辞模型中的“编造”(confabulation),即大模型饱受诟病的“胡言乱语症”。作者在多个数据集上测试了语义熵方法,结果显示语义熵方法在检测编造方面显著优于其他基准方法。
那么“语义熵”究竟是什么呢?
抛开冗长的专业阐明,我们可以将语义熵大略理解为概率统计的一种指标,用来丈量一段答案中的信息是否同等。如果熵值较低,即大家都给出类似的答案,解释信息可信。但如果熵值较高,答案各不相同,解释信息可能有问题。
这有点类似于,如果一个人在撒谎,他可能没办法每次把谎话的细节编造得千篇一律。一个谎话每每须要无数个谎话来帮它扯圆。从信息论的角度来看,可能会引入更多的不愿定性和随机性。说谎者须要引入额外的信息或细节来支持其不真实的阐述,这可能会增加信息的不愿定性或熵值,进而被算法检测出来。
比如,当你问 AI“天下上最高的山是哪座?”
大模型可能会给出几个答案:“珠穆朗玛峰”“乞力马扎罗山”“安第斯山脉”。
通过打算这些答案的语义熵,创造“珠穆朗玛峰”这个答案涌现频率最高,其他答案则很少乃至没有涌现。低语义熵值表明“珠穆朗玛峰”是可信的答案。
语义熵,既有上风,也有弱点
语义熵检测方法的上风在于不须要任何先验知识,无需额外的监督或强化学习。普通地讲,利用这种方法时,并不须要上知天文下知地理,只须要遇事未定看看大家都怎么说。
而目前常用的诸如标注数据、对抗性演习等方法,“泛化”效果(即举一反三的能力),都不如通过语义熵打算。即便是大模型从未碰着过的新语义场景,也能适用语义熵方法。
当然,语义熵虽然是一种相对有效的办法,但不是万灵药,它自己也有一定局限性:
1
处理模糊和繁芜问题的能力有限
语义熵在处理非常模糊或繁芜的问题时可能不足有效。
在面对多种可能精确答案的问题时,比如“最好的编程措辞是什么?”,语义熵可能无法明确区分哪一个答案更可靠,由于多个答案都可能是合理的。
(谁说是 Python?我 C++第一个不服!
!
)
2
忽略高下文和知识
语义熵紧张基于统计和概率打算,可能忽略了高下文和知识的影响。在一些须要综合高下文和知识来判断的问题中,语义熵可能无法供应准确的可靠性评估。比如常常谈恋爱的朋友可能有体会,情侣间一句话:“我没事儿,你忙吧。”
你以为 TA 是真没事儿,还是有很大事儿?
在这种情形下,得结合高下文场景、人物状态等信息判断,不同的高下文会导致不同的理解。语义熵只能基于词语的统计概率进行评估,可能会给出错误的判断。
再比如知识性的判断,既物理天下的客不雅观规律,假设我们问一个问题:“太阳从哪边升起?”
精确答案是“东边”。然而,如果我们有以下两个候选答案:
1、太阳从东边升起。
2、太阳从西边升起。
(这可能由于模型演习数据的偏差和天生过程的随机性导致)
纵然语义熵检测到两个答案的概率分布靠近,但知识见告我们答案 1 才是精确的。语义熵在这种情形下可能无法供应足够的信息来判断答案的可靠性。
3
如果演习数据被无意或刻意“污染”,语义熵也没办法很好识别
如果用缺点的数据,给大模型施加了“思想钢印”,模型对其天生的缺点陈述非常“自傲”(即缺点陈述在模型的输出概率分布中占主导地位),那么这些陈述的熵值可能并不会很高。
末了总结一下,从大模型的内容天生机制上看,“幻觉”问题没办法 100%避免。当我们在利用AI天生的内容时,主要的数理推理、历史事宜或科学结论、法律和康健知识等方面最好进行人工核查。
不过,换个角度,“幻觉”也是大措辞模型的创造力表示,我们大概该当善用大模型的“幻觉”能力。毕竟幻觉不一定是 bug(故障),而是大模型的 feature(特点)。
如果须要检索事实,我们已经有了搜索引擎工具。但如果须要有人帮我们编辑一个“恐龙扛狼”的无厘头剧本,那么,大措辞模型显然是个更好的助手。
点击输入图片描述(最多30字)
比如笔者费尽心思想画一幅恐龙扛狼图,但某 AI 油盐不进,画出了一幅恐龙把狼吞了(疑似)的图,难怪理解不了恐龙扛狼的真意啊……
参考文献
[1] S. Farquhar, J. Kossen, L. Kuhn, and Y. Gal, “Detecting hallucinations in large language models using semantic entropy,” Nature, vol. 630, no. 8017, pp. 625–630, 2024, doi: 10.1038/s41586-024-07421-0.
策划制作
作者丨木木 北京师范大学数学专业 资深产品经理 人工智能创业者
审核丨于旸 腾讯玄武实验室卖力人
策划丨丁崝
责编丨丁崝
审校丨徐来、林林