9.8和9.11哪个大?
当公主的年事是王子过去年事的两倍时,公主的年事即是她当前年事与王子当前年事之和的一半。公主和王子的年事分别是多少?
……
当再次抛出这几个数学推理问题,人工智能或许已能准确作答,不再给你留下嘲笑它的机会。
本日凌晨,OpenAI发布最新模型o1的预览版,也便是此前业界传得沸沸扬扬的“草莓”模型。
和GPT-4o比较,它的最大特点便是推理能力非常强,包括数学、编程问题、科学领域等。
“这是一种新范式的开始,AI可以进行通用繁芜推理了。”CEO阿尔特曼在社交平台上写道。
大模型界来了位“理科生”
o1,实在是OpenAI一系列操持中的“推理”模型的首个模型。这些模型经由演习,能够比人类更快地回答更繁芜的问题。
为什么叫o1,而不是沿用此前的GPT系列命名?
官方阐明是:“对付繁芜的推理任务而言,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,我们将计数看重置为1,并将这个系列命名为OpenAI o1。”
那么,o1到底强到什么程度?官方甩出了一大堆各种比赛的成绩单,仅从数据来看险些是全面碾压级别。
比如,在2024 AIME(美国数学约请赛)的资格考试中,GPT-4o办理问题准确率为13.4%,o1预览版成绩为56.7%,而尚未发布的o1正式版是83.3%。
编程方面,在仿照Codeforces平台的竞争性编程比赛中,o1超越93%的人类竞争者,也远远超过了GPT-4o(仅超越11%的人类竞争者)。
GPQA Diamond是一项专门评估化学、物理和生物等领域专业知识的测试。o1不仅通过了测试,而且还超过部分拥有干系领域博士学位的人类专家。这也是有史以来,第一个得到此造诣的模型。
给出答案前会花更多韶光思考
如果说之前的模型,大多凭“直觉”来回答我们的提问,那么o1给出的便是寻思熟虑后的答案。
这一改变来自于背后的“链式思考”机制。
OpenAI的研究卖力人Jerry Tworek(杰里·特沃瑞克)透露,o1的演习与之前产品有实质上的差异,“利用了一种全新的优化算法和专门为它定制的新演习数据集。”
“模型在学习自己思考,而不是试图模拟人类的思维办法。” OpenAI研究主管Mark Chen(马克·陈)表示。
也便是说,它在回答我们的讯问之前,会花更多韶光“想一想”。
本日,OpenAI也放出了多个演示视频,以显示o1的这种能力。
在个中一个视频中,事情职员问道:“当公主的年事是王子过去年事的两倍时,公主的年事即是她当前年事与王子当前年事之和的一半。公主和王子的年事分别是多少?”
o1思考了几秒钟后开始作答,并显示推理的全过程,包括变量是什么,条件又是什么,如何将这个问题准确表述,等等;接着转化为可解的方程式,并实时求解,末了乃至还给出了一条验证的结果。
终极的精确答案是:王子的年事是任意自然数k的6倍,公主的年事是k的8倍。
解题过程截图
目前,o1花在思考上的韶光是从几秒到十几秒不等,但OpenAI表示未来的改进方向不是缩短,而是努力连续增加这个时长,让未来的版本思考几个小时、几天乃至几周。“人工智能可以不仅仅是谈天机器人。”
部分用户本日已用上
眼下,ChatGPT Plus和Team用户已经可以在ChatGPT中,通过手动选择o1-preview和o1-mini,来试一试o1模型的能力。o1-preview每周限定为30条,o1-mini为50条。
本日一上午,网上各种跃跃欲试,已有不少人迫不及待地晒出自己的试用结果。
有网友一上来就让它回答9.8和9.11哪个大的问题,也有人去翻数学高考题。
博主卡兹克直接甩出了很多人看了都含糊的调休问题:“这是2024年9月9日(星期一)开始到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。问:我除了我本来该休的周末,我由于放假多安歇了几天?”
在思考了整整30秒往后,o1给出了准确答案。
不过目前,o1还只是个早期模型,侧重繁芜推理,诸如联网搜索、图片视频处理等都还不支持,须要合营GPT-4o一起利用。
其余,它的推理能力虽然强于此前模型,使得回答更为准确,但仍旧会有涌现“幻觉”问题的概率。“我们不能说我们已经办理了幻觉问题。”Jerry Tworek坦言。
任务编辑:童蔚审核:陈奕 梁应杰