AI高考数学都能考100多分了

OpenAI凌晨发布新一代大模型，听说在推理能力上已经可以比肩人类。
并且这次没有像Sora一样的画饼，发布即可用。

那就让我们看看这个新模型到底是怎么个事

！

AI高考数学都能考100多分了

草莓操持

实在这次OpenAI的发布早有"预谋"，在萨姆奥特曼的twitter上，一贯都在暗示，即将有一款名为"草莓"的AI项目与大家见面！

这草莓是啥呢？便是之前一贯传言中可以"媲美"人类，达到AGI（通用人工智能）的大模型。
草莓的义务，便是让AI具有推理，方案，乃至是自我学习的能力，从而帮助人类在医疗，科研，教诲等有着更快更大的打破。

本日凌晨，我们终于看到了"草莓"，只不过它的名字不是GPT5，而是o1。

根据官方的先容，o1在推理干系的问题上，比GPT4o有着大幅度的提升。
比如针对美国最聪明高中生的数学测试中，以前GPT4o均匀只能在15道题答对1.8道，而o1的精确数量飙升到了12.5，如果微调下，o1可以超过美国高中生数学奥林匹克的分数线。

同样地，在编码比赛中，分数也从以前的11分干到了现在的89分，在博士级别的问答中，它也可以超过人类专家。

在信息奥林匹克上，经由微调的o1，分数整整提高到了1000分。
这是什么观点呢？在人类中，只有7%的参赛者比AI强，剩下的93%都被AI击败了！

看完这些，我溘然有种第一次见到Sora觉得，这视频真是AI天生的？人类智商末了的防线，就这么被AI攻破了？是不是OpenAI看AI要崩了，又一次画的大饼？

答案是什么，只有测过，才清楚。
这次o1并没有像Sora一样平常不可"亵玩”,发布后，就全量推送给订阅用户，也便是说，任何人交上20美元，就可以急速体验到这个划时期的大模型。

测试完，我有点慌了

那就废话少说，直接开测，学渣还是Jumping，我们一测便知！

我们分别用2024年新课标1卷的高考数学题和阿里巴巴环球数学竞赛预选赛的题目来测o1的推理能力。
不过要解释的是，目前推送的是o1预览版，它的推理能力和正式版还有些许差距，以是将来看到的o1会好比今更强。

目前的o1还不能看图，以是这次我们把数学公式转换成LaTex格式，交给AI解答，并且今年新课标1卷的试题中，有两道是须要看图的，刨除这两道题的分数，总分在129分。

在题目输入对话框后，可以看到o1比普通大模型多了一个思考的过程。
比如上图这道高考数学的多选题，它会先剖析题目，然后再找须要用到知识。
以这道题来讲，须要用的便是正态分布的知识，然后再去打算概率。

在这里也大略放下这道题o1的思考过程，大家可以看下，它整体的思路和人类思考确实非常像！

给AI的卷子判完，我直接慌了！
91分！
如果转换到150分，那便是105分呀，这已经超过我当年的高考分数了。

阿里巴巴数学竞赛的题比较分外，个中大部分都是证明题，没有固定答案，以是我们就测试了6道具有准确答案的题，像下面这种：

答题的全体过程，和人类非常相似，概率论与数理统计忘光的我，基本上也能看明白个大概。

终极6个问题，o1回答对了3个，精确率在50%，虽然没有超过姜萍的93分，但作为AI来讲，也非常不错了，毕竟是国际数学比赛。

测完下来，觉得和AI比较，我自己像个弱智！
当年我高考数学90多分，结果AI不仅在10分钟内做完题，还考了100多分。
我连题目都看不懂的数学竞赛题，它能答对一半，虽然不如姜萍，但也能秒杀大部分人了。

说好的AI推理能力不如5岁小孩呢？OpenAI怎么溘然就让AI推理能力，噌噌的，超过我这个360个月的婴儿了呢？

思维链，下个大模型的打破点

这个中的秘密就在于思维链（Chain of Thought），也便是上面提到过的把一个繁芜问题，拆成多个小问题，依次办理的方法。

之前思维链都是作为提示词技巧来利用。
想要AI帮你办理繁芜问题，就把这个问题拆解成小问题，然后一个一个的输入给AI。

这次，OpenAI直接把拆解的过程交给AI，人类得到了彻底的解放！
实测的结果大家也看到了，AI的逻辑推理能力确实得到了大跨步的提高！

那么OpenAI又是如何实现让AI自我完成思维链的呢？很可惜，目前的OpenAI早就Close了，因此这次并没有公布这些技能细节，但从传闻来看，大概是用到了强化学习。

也便是给AI设置一个规则，这一步逻辑精确+1分，缺点-1分，分数越高越好，终极就有了本日的o1。
当然个中有很多工程细节，这些都成为了OpenAI的护城河。

接下来可以肯定的是，思维链将成为其他家大模型的打破方向，到时候谁家模型分解问题分解的好，分解的精确将成为能否领先的关键。

除了数学，有了推理能力的AI在各个地方都有着更好运用。
比如OpenAI官方就展示用o1，在不到10分钟内做出一个小游戏，网友在实际测试中，乃至做出了3D的饕餮蛇。

更让我意外的是，OpenAI还展示了o1在量子物理，基因学，经济学以及认知学带来的帮助，好家伙，这下AI都可以覆盖到这么前沿的领域了？

不过每一次AI打破，都有不小的"副浸染"，ChatGPT带来论文造假，Midjourney和Sora带来假造新闻惶恐，这次o1的"副浸染"更大。

之前GPT4安全测试，生物威胁等级为低，而在o1中，生物威胁不仅升级到了化学，生物，核子，放射威胁，等级也提升到中。

也便是说，"天网"离我们又进了。
AI越强，它造成的毁坏也越大，如何掌握它，将成为和思维链一样主要的事情，就像我们都希望核子发电，而不肯望它爆炸。

从本日开始，各大AI厂商就要考虑这个问题了，不过对付我，我更关心一个问题，便是往后我们还须要考试吗，实在要考的话，能不能让AI替我答一下，毕竟它比我分高！

每期AI知识网