在德国慕尼黑工业大学事情期间,他曾和同事在一项研究中成功提高了大模型办理繁芜数学问题的能力。
通过此,他们不仅提高了算法推理速率,还提高了算法搜索中间结果的质量。所新推出的数据集 TriMaster100,也更加符合算法在繁芜数学问题下的评价场景。
目前,赵子龙的互助者正在基于本次成果开展 math tutor 的项目,即基于人工智能进行数学辅导。
图 | 赵子龙(来源:赵子龙)
用大模型求解奥赛数学题
本次课题最早可以追溯到 2023 年 2 月。当时,已经有一些研究团队开始利用大模型做逻辑推理和数学推理。赵子龙和互助者也认为这个方向很有前景。
他表示让自己印象最深的例子便是 OpenAI 网站上的一道数学推理的题: Simplify tan100 + 4sin100。根据 OpenAI 自己的说法,利用 ChatGPT 来办理这一问题的概率大概是 0.1%。
他当时非常好奇 ChatGPT 到底能解答到什么程度。之后,他自己考试测验利用不同的提示词,并将不同的中间结果给到 ChatGPT,看看是否可以提高成功率。
结果显示在逐步供应提示词的情形下,解题概率远远大于 0.1%。之后,赵子龙和互助者开始针对已有方法进行建模,然后在其他数学问题上进行考试测验。
小规模测试结果显示,比较其他的业内最佳的结果,通过上述方法的确可以提高解题概率。随后,他们开始进行大量的测试。
期间创造,如果只利用精确率作为终极的测试结果,并不能完备表示本次算法的上风。
由于对大模型的要求是有本钱的,以是当算法在利用大模型办理数学问题时,算法会设置一个针对大模型的要求次数上限。
这会导致在有限的要求次数内,一些繁芜的数学问题不能被完备办理。对付其他利用大模型做数学推理的算法,这个结论也同样适用。以是,针对大模型数学推理算法,须要设定新的评价标准。
事实上,此前已经有研究团队利用大模型做数学推理,并已能在大略的数学数据集实现不错的结果。
而在本次研究中,赵子龙等人希望能够针对繁芜的数学问题开展推理。
同时,本次项目得到了德国国家基金的支持。起因在于赵子龙的博士后导师——德国慕尼黑工业大学教授恩格莱伊达·卡斯内奇(Enkelejda Kasneci)希望做一个开源项目,利用大模型办理至少高中水平的数学问题。
这样一来在经济不发达的地区,只要能打仗到互联网,学生们就可以随时探求在线老师的帮助,从而极大提高教诲的公正性。
目前,提高大模型数学推理能力紧张采纳两条路径:
一是用利用数学数据集去微调模型,增强模型本身的逻辑推理能力。二是利用提示工程(prompt engineering)这一方法,即在不改变大模型本身的情形下,针对大模型的输入加以设计,让它的输出更加符合需求。
赵子龙等人认为:工业界的演习资源远远超过他所在学术界,因此他很难在微调模型高下功,以是他和同事决定从第二种方法入手。
此前,在神经信息处理系统(NIPS,Neural Information Processing Systems)国际大会上,曾有人展示过一款算法——tree-of-thought(ToT)。
在做推理的时候,ToT 每次只能天生几个备选以用于下一步的推理,然后利用大模型进行评估,从而选出最有可能的下一步,之后连续天生可能的下一步推理,直到问题得到办理。
研究中,课题组创造 ToT 每次只能在推理逻辑链上走一步,只管这样也能办理问题,但是速率非常慢。
对付繁芜问题来说,如果逻辑链比较长,ToT 要花费很永劫光才有可能解答问题,条件是中间不出任何缺点,不然还得回溯到之前状态。
基于此,他们开始设想:能否在相同数量的大模型要求之下,以更快的速率办理问题?
为此,该团队提出了一种名为 SSC-CoT(stepwise self-consistent chain of thought)的算法。
个中,CoT(chain of thought,思维链)也来源于揭橥于 NIPS 大会上的一篇经典论文。该论文的紧张贡献在于:利用大模型做推理时,要让大模型同时输出中间步骤和结果,而不是仅仅输出结果,这样一来就能极大地增强推理精确性。
赵子龙等人创造当利用大模型进行数学推理时,未必可以一次就得到精确推理和精确答案。但是,在不同的考试测验之中,总有一些精确的中间步骤位于个中。
以是,他们认为可以先把所有的推理即思维链,拆解成一个个中间步骤。然后,在不同次的推理中,找到相同的中间步骤。而这些重复的中间步骤,大概率是精确解答问题中的中间步骤。
毕竟对付一个问题来说,缺点答案可以有无数种,精确答案肯定是有限的。如果不同推理均涌现了相同的中间结果,那么对付解答某个问题来说,这个结果大概率是一个有用的中间结果。
然后,针对这些中间结果进行外部验证。这时在后续推理之中,就可以基于这些中间结果,连续向下推理直到得到结果。
(来源:arXiv)
TriMaster100:包含 100 道三角函数问题
而由于创造 SSC-CoT 确实可以找到更多的精确中间结果。于是,他们决定自己构建一个新的数据集:TriMaster100,该数据集包含 100 道三角函数问题,难度涵盖高中水平到奥赛水平。
之以是这样做是由于:对付已有的数学推理数据集来说,它们无一例外全部都是只关注终极结果。
一些数据集就算包含中间推理的过程,但是由于没有把中间结果分步骤地打分,导致这些数据集在面对比较难的数学推理时,采纳目前已有的算法很难完备地解答问题。以是单就精确率而言,这些算法险些没有分别。
对付一道题来说,如果两名同学分别解答了 90% 和 10%,那么他们的分数也不一样。对付很多中国人来说,这也和我们求解数学题的履历符合,即对付做对的中间步骤,也该当给予一定分数。
TriMaster100 数据集除了可以打算精确率之外,还能打算每一个算法在每一个问题上详细的分数,进而打算末了的总分。因此,这是一个评价数学推理模型的更优办法。
而之以是推出这样一款针对三角函数问题的数据集:一是由于三角函数的推理比较抽象,曾有学者指出对付高中阶段的学生来说,他们很难解答三角函数问题。二是由于三角函数的变换较为清晰,更随意马虎针对中间结果进行分步打分。
针对 TriMaster100 这一数据集,该团队还绘制出一幅三角函数知识图(knowledge graph)。实验中,他们创造通过搜索知识图来供应干系的知识信息,可以有效提高大模型的推理水平。
即在解答一个数学问题时,如果可以供应一些高等定理作为大模型的提示词,那么大模型就不须要从零开始推理步骤,这样一来肯定可以提高大模型的推理效率。
(来源:arXiv)
至此,研究也进入尾声。日前,干系论文以《基于大型措辞模型的逐步自洽数学推理》(Stepwise Self-Consistent Mathematical Reasoning with Large Language Models)为题发在 arXiv[1]。
赵子龙是第一作者,德国慕尼黑工业大学教授恩格莱伊达·卡斯内奇(Enkelejda Kasneci)担当通讯作者。
图 | 干系论文(来源:arXiv)
而在未来,如果想做一个能被真正商用的平台,还须要在可视化上加以迭代。当学生在利用的时候,不是只让平台供应答案,而是让学生自己思考。
比如在解答问题的时候,学生可以先给出自己的推理,或者从平台给出的选项中,自行选择可能的推理方向。当然,学生的选择很可能是错的,这时平台最好可以给出阐明。
也便是说在解答数学题的时候,学生不仅仅想知道精确答案,还想知道自己的方法错在哪里。
这时,如果大模型可以针对缺点答案给出合理解释,就能给学生供应非常好的学习体验。
目前,赵子龙的互助者正在和德国一家在线教诲机构互助,利用这家机构的学员学习数据开展进一步的研究。
参考资料:
https://arxiv.org/pdf/2402.17786.pdf
运营/排版:何晨龙