大年夜措辞模型懂数学OpenAI发o1模型解题高手若何炼成的

新京报贝壳财经浏览OpenAI公开的技能文档、演示视频及该公司员工的发声内容创造，本次OpenAI更新的方向旨在加固此前大模型的“短板”：数学推理。
这种具备更强推理能力的o1系列模型共有三种：o1、o1-mini以及抢先版o1-preview。
从本日开始，o1-preview已在ChatGPT中向所有Plus和Team用户推出。

补数学运算“短板” 未来AI或许能在数学问题上超越人类

大措辞模型之所以是“措辞模型”，便是由于其胜在对措辞的解析以及流畅的回答，但一旦涉及数学问题，大措辞模型每每会现出真面孔，因此数学推理也成为了大措辞模型的短板。

而在本次更新中，OpenAI表示，o1系列模型可以推理繁芜的任务并办理比以前的科学、编码和数学模型更难的问题。
在OpenAI官方展示的视频里，量子物理学家利用GPT-4进行数学运算，可以创造在对话界面，大模型展示出了数学运算细节。

大年夜措辞模型懂数学OpenAI发o1模型解题高手若何炼成的

图片来源：OpenAI官方视频截图。

在详细的能力比拟上，山姆奥特曼晒出了o1与GPT-4o的数值差异：在数学竞赛中GPT-4o得分为13.4，o1得分高达83.3；编程竞赛中，GPT-4o得分为11.0，o1得分高达89；差异较为不明显的则是博士级别科研问题，GPT-4o得分为56.1，o1得分为78.0，比较之下科研职员的得分是69.7。

山姆奥特曼在社交平台贴出的比拟图。

OpenAI在官方技能文档中表示，以目前o1模型的成绩，在美国数学约请赛上可以排名进入美国前500名。

此外，o1-mini也展示出了不俗的实力，OpenAI科学研究员赵生家（音）发文称，该款大模型在运行本钱更低的情形下，还能实现70% AIME（美国数学约请赛）精确率和Codeforces（一个程序员在线竞赛平台）Elo评分1650（专家级水平）的成绩。
山姆奥特曼则在赵生家的推文后评论，“你们做出了令人难以置信的事情，这款模型的性价比非常好。
”

值得把稳的是，在此前达摩院举办的2024阿里巴巴环球数学竞赛初赛中，AI军队未能达到决赛入围分数线，统计显示，参赛AI军队的均匀分已达到了人类选手均匀水平，但离数学高手仍有较大差距。
不知这次OpenAI更新o1后，人类与AI在数学能力上的差距是否会有所缩短。

“可以推理繁芜的任务”的大模型是如何炼成的？思路链功能揭秘

那么，OpenAI是如何“补足”大措辞模型天生的数学短板的呢？

该公司在官网表示，“我们演习这些模型在问题做出相应之前花更多韶光思考问题，就像一个人一样。
通过培训，他们学会完善自己的思维过程，考试测验不同的策略，并认识到自己的缺点。
”

根据OpenAI表露的官方技能文档，o1在考试测验办理问题时会利用一系列思路链（chain of thought），“通过强化学习，o1学会了磨炼其思路链并完善其利用的策略。
它学会了认识并纠正缺点，将棘手的步骤分解为更大略的步骤。
如果当前方法不起浸染，它会考试测验另一种方法，这个过程极大地提高了模型的推理能力。
”

OpenAI官方技能文档中展示的“思路链”（右图）与原回答的差异。

OpenAI的技能文档在密码、数学、编码、字谜、措辞、科学等多个维度展示了“思路链”能力。
如在措辞的案例中，OpenAI展示了大模型对一段阅读理解的回答，对该问题，GPT-4o会直接选择答案A，而o1-preview则经由“思路链”剖析了从A到E统共5个选项，终极选择了D。

开源证券研报剖析认为，本次o1系列模型问世，代表着模型能通过RL在除演习侧之外的推理侧，引入“思路链”等新技能的办法提升模型的性能，为科学、数学、编码等专业领域供应更准确的答案，这或是天生式AI发展的主要拐点。

新京报贝壳财经罗亦丹

编辑岳彩周

校正吴兴发

每期AI知识网

大年夜措辞模型懂数学OpenAI发o1模型解题高手若何炼成的

建筑学卒业论文分享3个持一键写作的对象

绝美的透明水晶球绘画技巧学会了还会怕找不到女同伙吗