量子位 | "大众年夜众号 QbitAI

AI做数学题的成绩又又又被刷新了!

众所周知,随着谷歌思维链(chain of thought)观点的提出,AI做题时已经能像人类一样天生解题步骤。

这次,来自DeepMind的科学家提出了一个切实的问题:如何确保解题步骤和答案的双重精确率?

AI解数学题谜底对过程却错DeepMind新研究改进谷歌思维链方法

为此,他们在GSM8K数据集上全面比拟了基于过程和基于结果的监督方法,并结合二者上风演习出一个最佳模型。

结果表明,新模型的答案缺点率从16.8%降落到12.7%,解题步骤的缺点率也从14.0%降落到了3.4%。

步骤+答案双重保障

在先容新研究前,不得不先提到谷歌今年1月在论文中提出的思维链观点。

大略来说,思维链提示便是一种分外的高下文学习,不同于标准提示只是给出输入-输出对的示例,思维链提示还会额外增加一段推理的过程。

该方法在LaMDA-137B、GPT-3 175B、PaLM-540B三个大型措辞模型上都得到了验证:比拟标准提示,新方法在一系列算术推理等任务上的准确率都有了明显的提高。

但该方法存在的一个问题是,在某些情形下,AI能天生精确答案,但推理过程却是缺点的。

现在,来自DeepMind的研究职员,针对这一点做出了改进:不仅只关注终极结果,也看重推理过程的准确性。

为此,他们对自然措辞处理任务中基于过程和结果的方法进行了首次全面比较。

详细来说,包括以下不同场景:少样本提示、有监督的微调、通过专家迭代的强化学习以及重排序和强化学习的褒奖模型。

而之以是选择GSM8K数据集,一来由于它是由小学数学运用题组成,答案都是整数解,方便准确性统计;

二是GSM8K数据集具有对推理步骤的离线监督,以及在线人工标注。

从结果上看,第一,基于过程和基于结果的方法在终极答案缺点率上近乎同等。
这也意味着,仅靠结果监督就足以实现较低的答案缺点率。

第二,推理步骤准确率的提升则须要过程监督或模拟它的褒奖模型。
只管终极答案缺点率相似,但从下图可以看出,结果监督(19.8%)比过程监督(11.4%)的推理缺点率明显要高。

除此之外,研究职员还结合二者上风,演习出一个最佳模型,即将监督学习与基于褒奖模型的强化学习相结合。

新模型的答案缺点率从以前的最佳水平16.8%降落到12.7%,并且,答案精确、推理过程却缺点的情形也从14.0%降落到了3.4%。

当许可模型对30%的问题进行回避时,终极答案的缺点率乃至能达到2.7%。

研究团队

本篇论文的研究团队来自DeepMind,共同一作有三位:Jonathan Uesato、Nate Kushman、Ramana Kumar。

12月3日,Nate Kushman将会就本篇论文在NeurIPS 2022举办的第二届MATH-AI研讨会上做报告,感兴趣的小伙伴可以蹲守一下~

论文链接:https://arxiv.org/pdf/2211.14275.pdf

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态