谷歌DeepMind研发AI数学大年夜模型一口气做对25道奥数难题

很长一段韶光以来，几何和其他数学问题都是人工智能研究职员试图占领的寻衅。

该研究的合著者 Thang Wang 表示，与基于文本的人工智能模型比较，数学的演习数据要少得多，由于它紧张由符号构成，而且是特定领域的。
该研究的干系论文近日揭橥在 Nature 杂志上。

（来源：Nature）

办理数学问题须要逻辑推理，而目前大多数人工智能模型都不善于逻辑推理。
Wang 说，数学是衡量人工智能进步的主要基准，实质上便是办理数学问题离不开推理能力。

谷歌DeepMind研发AI数学大年夜模型一口气做对25道奥数难题

DeepMind 开拓的人工智能模型名为 AlphaGeometry。
它将一种措辞模型与一种名为符号引擎（symbolic engine）的人工智能相结合，后者利用符号和逻辑规则进行推理。

（来源：Nature）

措辞模型善于识别模式和预测（解题）过程中的后续步骤。
然而，它们的推理缺少办理数学问题所需的严谨性。

另一方面，符号引擎纯粹基于形式逻辑（formal logic）和严格的规则，这使它能够勾引措辞模型做出合理的决策。

这两种模型分别卖力创造性思维和逻辑推理，再联合起来共同办理数学难题。
这与人类处理几何问题的办法非常相似：将现有的理解与探索性实验相结合。

DeepMind 表示，它用 30 道几何题测试了 AlphaGeometry，其难度与国际数学奥林匹克竞赛的难度相同。

它在时限内办理了 25 道题。
在此之前，最前辈的系统是由中国数学家吴文俊在 1978 年开拓的，只能完成 10 道。

“这是一个非常令人印象深刻的结果。
”德国波恩大学数学教授弗洛瑞思·范·多恩（Floris van Doorn）说，他没有参与这项研究。
“我原以为这还须要几年韶光。
”

DeepMind 表示，该系统展示了人工智能推理和创造新数学知识的能力。

谷歌 DeepMind 的科学家、该研究的作者之一黎曰国（Lê Viết Quốc）在新闻发布会上表示：“这是另一个例子，凸显了人工智能如何帮助我们推动科学（发展），帮助我们更好地理办理议天下如何运作的基本过程。
”

当碰着几何问题时，AlphaGeometry 会首先考试测验利用其符号引擎从逻辑的角度天生证明。
如果仅利用符号引擎无法做到这一点，则措辞模型会在图中添加一个新的点或线。

这为符号引擎连续探求证明开辟了更多的可能性。
这个过程会不断重复，措辞模型添加新的元素，符号引擎测试新的证明策略，直到找到可验证的办理方案。

为了演习 AlphaGeometry 的措辞模型，研究职员必须创建自己的演习数据，以填补现有几何数据的不敷。
他们天生了近 5 亿张随机几何图，并将其供应给符号引擎。

该引擎剖析了每张图，并天生了关于其属性的语句。
这些陈述被整理成 1 亿份证明来演习措辞模型。

（来源：AI 天生）

美国路易斯维尔大学打算机科学与工程副教授罗曼·雅波斯基（Roman Yampolskiy）表示，AlphaGeometry 的能力显示出机器在“更繁芜、类人的问题办理技能”方面的重大进步。
他没有参与这项研究。

雅波斯基在电子邮件中说：“除了数学，它的影响还涉及到依赖几何办理问题的领域，如打算机视觉、建筑，乃至是理论物理学。
”

不过，AlphaGeometry 还有改进的余地。
虽然它可以办理“低级”数学问题，但它仍旧无法办理大学里教授的高等抽象问题。

范·多恩说：“如果人工智能能够办理研究数学中提出的问题，或容许以创造新的数学见地，数学家们会对它非常感兴趣。
”

Wang 说，其目标是将类似的方法运用于更广泛的数学领域。
他说：“几何只是我们证明人工智能能够进行深度推理的一个例子。
”

参考资料：

Trinh, T.H., Wu, Y., Le, Q.V.et al. Solving olympiad geometry without human demonstrations. Nature 625, 476–482 (2024). https://doi.org/10.1038/s41586-023-06747-5

支持：Ren

运营/排版：何晨龙

每期AI知识网

谷歌DeepMind研发AI数学大年夜模型一口气做对25道奥数难题

长不好看没紧要AI换张脸就行了

没有了