OpenAI凌晨发布新一代大模型,听说在推理能力上已经可以比肩人类。并且这次没有像Sora一样的画饼,发布即可用。
那就让我们看看这个新模型到底是怎么个事
!
草莓操持
实在这次OpenAI的发布早有"预谋",在萨姆奥特曼的twitter上,一贯都在暗示,即将有一款名为"草莓"的AI项目与大家见面!
这草莓是啥呢?便是之前一贯传言中可以"媲美"人类,达到AGI(通用人工智能)的大模型。草莓的义务,便是让AI具有推理,方案,乃至是自我学习的能力,从而帮助人类在医疗,科研,教诲等有着更快更大的打破。
本日凌晨,我们终于看到了"草莓",只不过它的名字不是GPT5,而是o1。
根据官方的先容,o1在推理干系的问题上,比GPT4o有着大幅度的提升。比如针对美国最聪明高中生的数学测试中,以前GPT4o均匀只能在15道题答对1.8道,而o1的精确数量飙升到了12.5,如果微调下,o1可以超过美国高中生数学奥林匹克的分数线。
同样地,在编码比赛中,分数也从以前的11分干到了现在的89分,在博士级别的问答中,它也可以超过人类专家。
在信息奥林匹克上,经由微调的o1,分数整整提高到了1000分。这是什么观点呢?在人类中,只有7%的参赛者比AI强,剩下的93%都被AI击败了!
看完这些,我溘然有种第一次见到Sora觉得,这视频真是AI天生的?人类智商末了的防线,就这么被AI攻破了?是不是OpenAI看AI要崩了,又一次画的大饼?
答案是什么,只有测过,才清楚。这次o1并没有像Sora一样平常不可"亵玩”,发布后,就全量推送给订阅用户,也便是说,任何人交上20美元,就可以急速体验到这个划时期的大模型。
测试完,我有点慌了
那就废话少说,直接开测,学渣还是Jumping,我们一测便知!
我们分别用2024年新课标1卷的高考数学题和阿里巴巴环球数学竞赛预选赛的题目来测o1的推理能力。不过要解释的是,目前推送的是o1预览版,它的推理能力和正式版还有些许差距,以是将来看到的o1会好比今更强。
目前的o1还不能看图,以是这次我们把数学公式转换成LaTex格式,交给AI解答,并且今年新课标1卷的试题中,有两道是须要看图的,刨除这两道题的分数,总分在129分。
在题目输入对话框后,可以看到o1比普通大模型多了一个思考的过程。比如上图这道高考数学的多选题,它会先剖析题目,然后再找须要用到知识。以这道题来讲,须要用的便是正态分布的知识,然后再去打算概率。
在这里也大略放下这道题o1的思考过程,大家可以看下,它整体的思路和人类思考确实非常像!
给AI的卷子判完,我直接慌了!
91分!
如果转换到150分,那便是105分呀,这已经超过我当年的高考分数了。
阿里巴巴数学竞赛的题比较分外,个中大部分都是证明题,没有固定答案,以是我们就测试了6道具有准确答案的题,像下面这种:
答题的全体过程,和人类非常相似,概率论与数理统计忘光的我,基本上也能看明白个大概。
终极6个问题,o1回答对了3个,精确率在50%,虽然没有超过姜萍的93分,但作为AI来讲,也非常不错了,毕竟是国际数学比赛。
测完下来,觉得和AI比较,我自己像个弱智!
当年我高考数学90多分,结果AI不仅在10分钟内做完题,还考了100多分。我连题目都看不懂的数学竞赛题,它能答对一半,虽然不如姜萍,但也能秒杀大部分人了。
说好的AI推理能力不如5岁小孩呢?OpenAI怎么溘然就让AI推理能力,噌噌的,超过我这个360个月的婴儿了呢?
思维链,下个大模型的打破点
这个中的秘密就在于思维链(Chain of Thought),也便是上面提到过的把一个繁芜问题,拆成多个小问题,依次办理的方法。
之前思维链都是作为提示词技巧来利用。想要AI帮你办理繁芜问题,就把这个问题拆解成小问题,然后一个一个的输入给AI。
这次,OpenAI直接把拆解的过程交给AI,人类得到了彻底的解放!
实测的结果大家也看到了,AI的逻辑推理能力确实得到了大跨步的提高!
那么OpenAI又是如何实现让AI自我完成思维链的呢?很可惜,目前的OpenAI早就Close了,因此这次并没有公布这些技能细节,但从传闻来看,大概是用到了强化学习。
也便是给AI设置一个规则,这一步逻辑精确+1分,缺点-1分,分数越高越好,终极就有了本日的o1。当然个中有很多工程细节,这些都成为了OpenAI的护城河。
接下来可以肯定的是,思维链将成为其他家大模型的打破方向,到时候谁家模型分解问题分解的好,分解的精确将成为能否领先的关键。
除了数学,有了推理能力的AI在各个地方都有着更好运用。比如OpenAI官方就展示用o1,在不到10分钟内做出一个小游戏,网友在实际测试中,乃至做出了3D的饕餮蛇。
更让我意外的是,OpenAI还展示了o1在量子物理,基因学,经济学以及认知学带来的帮助,好家伙,这下AI都可以覆盖到这么前沿的领域了?
不过每一次AI打破,都有不小的"副浸染",ChatGPT带来论文造假,Midjourney和Sora带来假造新闻惶恐,这次o1的"副浸染"更大。
之前GPT4安全测试,生物威胁等级为低,而在o1中,生物威胁不仅升级到了化学,生物,核子,放射威胁,等级也提升到中。
也便是说,"天网"离我们又进了。AI越强,它造成的毁坏也越大,如何掌握它,将成为和思维链一样主要的事情,就像我们都希望核子发电,而不肯望它爆炸。
从本日开始,各大AI厂商就要考虑这个问题了,不过对付我,我更关心一个问题,便是往后我们还须要考试吗,实在要考的话,能不能让AI替我答一下,毕竟它比我分高!