由于o1模型并未开源,目前许多信息都来源于OpenAI“自报家门”。
不过OpenAI已经约请干系专家学者进行了试用。
一位马克斯-普朗克研究所的量子物理学家展示了o1-preview(o1的早期版本)精确完成打算的繁芜量子物理问题。

作为OpenAI下一代 “推理” 模型中的第一个,o1模型目前已开放利用,同时开放了API(运用程序编程接口),现在人们可以品尝这颗“草莓”的味道了。

强化学习,推理能力超越博士水平

“确实很强。
”获悉o1大模型发布后,复旦大学打算科学技能学院教授黄萱菁给出如此评价。

OpenAI o1推理能力超博士慢下来思虑对AGI有多重要

数学曾是大模型的短板。
今年6月,上海人工智能实验室选取零一万物、智谱AI、阿里云通义等6个开源模型及GPT-4o进行高考“语数外”全卷能力测试,结果数学普遍不及格,均匀得分率仅为36%(150分满分)。

在办理博士水平的物理问题时,上一代最强模型GPT-4o也是“不及格”的59.5分,o1模型则一跃而至“精良档”得到92.8分。
这样的成绩能够跻身美国前500学生的行列,超过美国数学奥林匹克的入选分数线。
在测试化学、物理和生物学专业知识的基准GPQA-diamond上,o1的表现全面超越人类博士专家,展现出此前模型所不具备的超级推理能力。

OpenAI表示,o1模型采取了强化学习技能,通过增加测试、推理时的打算资源,显著提高了模型性能。
所谓强化学习,是一种让打算机自己从与环境的交互中不断学习以达到目的的演习方法。
在这个过程中,打算机就像一个蹒跚学步的孩子,根据现实天下的反馈不断调度自己的姿态,在跌倒中学会行走。

强化学习的目标是长期回报最大化,因此它能在不断试错中提高。
比如在接到繁芜任务后,GPT-4o会说干就干,但o1会进行深入思考,天生一个较长的内部思维链,包括复述一遍问题的哀求、拆解任务、明确终极目标以及查漏补缺,它乃至还会提醒自己个中可能存在的陷阱,并列出须要用到的知识点和步骤。
完成这些之后,它才开始事情。

上海人工智能研究院研究员王资凯表示,o1模型的“链式思考”机制类似于人类在面对难题时的思考过程,从而提高理解决问题的准确性和灵巧性。
这种演习方法可使模型在处理繁芜任务时更谨严也更聪明,减少“幻觉”问题的涌现。

不断试错,得到系统中的“最优解”

互联网上,如果加载一个网页的韶光超过3秒,57%的人会离开,要想留住用户,必须守住这个“3秒定律”。
但目前o1模型花费在思考上的韶光为几秒到十几秒,而且OpenAI还表示,未来的改进方向是努力增加模型“思考”的韶光。

为什么会作如此选择?答案还是和强化学习有关。
过去的大模型如果第一次回答缺点,那么大概率第10000次还是会错,但在推理中引入强化学习后,打算机就能在不断试错中得到“最优解”,即随着思考韶光的延长而提高精确率。

上海期智研究院学术带头人吴翼曾在OpenAI事情过,他在一支6人团队中花了一年多韶光做了一个多智能体强化学习捉迷藏项目。
在他们创造的仿照环境中,有小蓝人(卖力藏)和小红人(卖力捉)以及许多道具。
博弈一共进行了6个阶段,一开始小蓝人只会往远处奔跑,但很快他们就学会了用箱子把自己围起来,小红人也学会了爬梯子,终极小蓝人把梯子和箱子都锁起来,这样小红人无法利用任何工具,双方分数趋于平稳。

在2024 IOI信息学奥赛题测试中,o1-preview模型在每题考试测验50次条件下取得了213分,属于人类选手中前49%的成绩。
如果许可它每道题考试测验10000次,就能得到362.14分,可得到金牌。

如果给o1模型足够长的思考韶光,是否就能产出令人惊奇的成果?OpenAI表示,o1系列可以帮医疗保健研究职员注释细胞测序数据,帮助物理学家天生量子光学所需的繁芜数学公式,所有领域的开拓职员可利用o1来构建和实行多步骤事情流程。

快慢系统齐头并进,通往AGI之路已现?

2002年诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》一书中提出,人脑有快慢两套系统,快系统能够依赖直觉快速作判断,慢系统须要总结、打算,非常耗费脑力。
国际象棋大师下车轮棋是“快系统”,他们凭借几万小时的演习和影象力,从棋盘格局中通过模式识别判断落子位置。
高档数学则是范例的“慢系统”,须要调动知识、打算、逻辑与考验能力。

清华大学惠妍讲席教授周伯文表示,从人工智能发展的进程来看,最初人们认为AI更适宜做“快系统”的事情,比如人脸识别。
但从AlphaGo到ChatGPT,AI在技能发展的推动下越来越善于“慢系统”任务,且能力增长速率会超过我们原来的预期。

不少OpenAI员工也分别用“快系统”和“慢系统”来差异o1模型与之前模型的差异。
在数据剖析、编码和数学等推理密集型种别中,o1模型明显优于GPT-4o;但在某些自然措辞任务上,GPT-4o优于o1模型。
对付以实现通用人工智能(AGI)为目标的OpenAI来说,手握GPT与o1两大系列模型,彷佛已具备了快慢系统齐头并进的能力。

这也印证了周伯文在今年天下人工智能大会上的不雅观点,即AI的下一个打破点会从纯虚拟的存在转到帮助人类在物理天下、生物天下和信息天下中创造更高代价。
下一代AI亟需更强知识、打算、推理的组合能力,通过快慢系统的结合,人类终极得以与AI完成交互的范式变革。

文:沈湫莎

图:OpenAI官网、截图

编辑:沈湫莎