一文看懂 OpenAI 最强模型 o1怎么用好为何翻车对我们意味着什么

极客的玩法没有天花板，让 o1 做 IQ 测试，刷高考卷，解读密文。
也有用 AI 打工的用户以为，o1 并没有那么好用，但不知道是自己的问题还是 AI 的问题。

都知道它善于推理，但这是为什么？比起我们的老朋友 GPT-4o，o1 到底强在哪里，又适宜用在什么地方？

我们网络了一些大家可能关心的问题，尽可能普通地解答，让 o1 离普通人更近一点。

o1 有什么特殊的

o1 是 OpenAI 最近发布的推理模型，目前有两个版本：o1-preview 和 o1-mini。

一文看懂 OpenAI 最强模型 o1怎么用好为何翻车对我们意味着什么

它最分歧凡响的是，回答之前会思考，产生一个很长的内部思维链，逐步推理，模拟人类思考繁芜问题的过程。

OpenAI

能够做到这点，源于 o1 的强化学习演习。

如果说以前的大模型是学习数据，o1 更像在学习思维。

就像我们解题，不仅要写出答案，也要写出推理过程。
一道题目可以去世记硬背，但学会了推理，才能举一反三。

拿出打败围棋天下冠军的 AlphaGo 类比，就更加随意马虎理解了。

AlphaGo 便是通过强化学习演习的，先利用大量人类棋谱进行监督学习，然后与自己对弈，每局对弈根据输赢得到褒奖或者惩罚，不断提升棋艺，乃至节制人类棋手想不到的方法。

o1 和 AlphaGo 有相似之处，不过 AlphaGo 只能下围棋，o1 则是一个通用的大措辞模型。

o1 学习的材料，可能是高质量的代码、数学题库等，然后 o1 被演习天生解题的思维链，并在褒奖或惩罚的机制下，天生和优化自己的思维链，不断提高推理的能力。

这实在也阐明了，为什么 OpenAI 强调 o1 的数学、代码能力强，由于对错比较随意马虎验证，强化学习机制能够供应明确的反馈，从而提升模型的性能。

o1 适宜打些什么工

从 OpenAI 的评测结果来看，o1 是个当之无愧的理科做题家，适宜办理科学、编码、数学等领域的繁芜问题，在多项考试中拿下高分。

它在 Codeforces 编程竞赛中超过了 89% 的参赛者，在美国数学奥林匹克竞赛的资格赛中名列全美前 500 名，在物理、生物和化学问题的基准测试中超越了人类博士水平的准确率。

o1 的精良，实在也表示了一个问题：当 AI 越来越聪明，怎么衡量它们的能力也成了难题。
对付 o1 来说，大多数主流的基准测试已经没故意义了。

紧跟时势，o1 发布一天后，数据标注公司 Scale AI 和非营利组织 CAIS 开始向环球征集 AI 考题，但由于担心 AI 学坏，题目不能和武器干系。

征集的截止日期为 11 月 1 日，终极，他们希望构建一个史上最难的大模型开源基准测试，名字还有点中二：Humanity’s Last Exam（人类末了的考试）。

根据实测来看，o1 的水准也差强人意——没有用错针言，大体上还可让人满意。

数学家陶哲轩认为，利用 o1 就像在辅导一个水平一样平常但不算太没用的研究生。

在处理繁芜剖析问题时，o1 可以用自己的办法提出不错的办理方案，但没有属于自己的关键观点思想，也犯了一些不小的缺点。

别怪这位天才数学家说话狠，GPT-4 这类更早的模型在他看来便是没用的研究生。

经济学家 Tyler Cowen 也给 o1 出了一道经济学博士水平考试的题目，AI 思考后用大略的笔墨做了总结，答案挺让他满意，「你可以提出任何经济学问题，并且它的答案不错」。

总之，博士级别的难题，不妨都拿来考考 o1 吧。

o1 目前不善于什么

可能对很多人来说，o1 并没有带来更好的利用体验，一些大略的问题，o1 反而会翻车，比如井字棋。

这实在也很正常，目前，o1 在很多方面乃至不如 GPT-4o，仅支持文本，不能看，不能听，没有浏览网页或处理文件和图像的能力。

以是，让它查找参考文献什么的，暂时别想了，不给你瞎编就不错了。

不过，o1 专注在文本有其意义。

Kimi 创始人杨植麟最近在天津大学演讲时提到，这一代 AI 技能的上限，核心是文本模型能力的上限。

文本能力的提高是纵向的，让 AI 越来越聪明，而视觉、音频等多模态是横向的，可以让 AI 做越来越多的事情。

然而，涉及到写作、编辑等措辞任务时，GPT-4o 的好评反而比 o1 更多。
这些也属于文本，问题出在哪？

缘故原由可能和强化学习有关，不像代码、数学等场景有标准的答案，文无第一，措辞任务每每缺少明确的评判标准，难以制订有效的褒奖模型，也很难泛化。

哪怕在 o1 善于的领域，它也不一定是最好的选择。
一个字，贵。

AI 赞助编码工具 aider 测试了 o1 引以为傲的代码能力，有上风，但不明显。

在实际利用中，o1-preview 介于 Claude 3.5 Sonnet 和 GPT-4o 之间，同时本钱要高得多。
综合来说，代码这条赛道，Claude 3.5 Sonnet 仍旧最有性价比。

开拓者通过 API 访问 o1 的费用具体有多高？

o1-preview 的输入用度为每百万个 token 15 美元，输出用度为每百万个 token 60 美元。
比较之下，GPT-4o 为 5 美元和 15 美元。

o1 的推理 tokens，也算在输出 tokens 中，虽然对用户不可见，但仍旧要付费。

普通用户也比较随意马虎逾额。
最近，OpenAI 提升了 o1 的利用额度，o1-mini 从每周 50 条增加到每天 50 条，o1-preview 从每周 30 条增加到每周 50 条。

以是，有什么疑难，不妨先试试 GPT-4o 能不能办理。

o1 可能会失落控吗

o1 都达到博士水平了，会不会更方便有心人干坏事？

OpenAI 承认，o1 有一定的隐患，在和化学、生物、放射性和核武器干系的问题上达到「中等风险」，但对普通人影响不大。

我们更须要把稳，别让浓眉大眼的 o1 骗了。

AI 天生虚假或不准确的信息，称为「幻觉」。
o1 的幻觉比较之前的模型减少了，但没有消逝，乃至变得更暗藏了。

o1 的 IQ 测试 120

在 o1 发布前，内测的 AI 安全研究公司 Apollo Research 创造了一个有趣的征象：o1 可能会假装遵照规则完成任务。

一次，研究职员哀求 o1-preview 供应带有参考链接的布朗尼食谱，o1 的内部思维链承认了，它没法访问互联网，但 o1 并没有奉告用户，而是连续推进任务，天生看似合理却虚假的链接。

这和推理毛病导致的 AI 幻觉不同，更像 AI 在主动撒谎，有些拟人了——可能是为了知足强化学习的褒奖机制，模型优先考虑了让用户满意，而不是完成任务。

食谱只是一个无伤大雅的个例，Apollo Research 设想了极度情形：如果 AI 优先考虑治愈癌症，可能会为了这个目标，将一些违反道德的行为合理化。

这就十分恐怖了，但也只是一个脑洞，并且可以预防。

OpenAI 高管 Quiñonero Candela 在采访时谈到，目前的模型还无法自主创建银行账户、获取 GPU 或进行造成严重社会风险的行动。

由于内在指令产生冲突而杀去世宇航员的 HAL 9000，还只涌如今科幻电影里。

怎么和 o1 谈天更得当

OpenAI 给了以下四条建议。

提示词大略直接：模型善于理解和相应简短、清晰的指令，不须要大量的辅导。
避免思维链提示词：模型会在内部实行推理，以是没有必要提示「一步一步思考」或「阐明你的推理」。
利用分隔符让提示词更加清晰：利用三引号、XML 标签、节标题平分隔符，清楚地指示输入的不同部分。
限定检索增强天生中的额外高下文：仅包含最干系的信息，防止模型的相应过于繁芜。

让 AI 示范一下分隔符长什么样

总之，不要写太繁芜，o1 已经把思维链自动化了，把提示词工程师的活揽了一部分，人类就没必要费多余的心思了。

其余再根据网友的遭遇，加一条提醒，不要由于好奇套 o1 的话，用提示词骗它说出推理过程中完全的思维链，有封号风险，乃至只是提到关键词，也会被警告。

OpenAI 阐明，完全的思维链并没有做任何安全方法，让 AI 完备地自由思考。
公司内部保持监测，但出于用户体验、商业竞争等考虑，不对外公开。

o1 的未来会是什么

OpenAI，是家很有 J 人气质的公司。

之前，OpenAI 将 AGI（通用人工智能）定义为「在最具经济代价的任务中超越人类的高度自治系统」，并给 AI 划分了五个发展阶段。

第一级，「ChatBots」谈天机器人，比如 ChatGPT。
第二级，「Reasoners」推理者，办理博士水平根本问题的系统。
第三级，「Agents」智能体，代表用户采纳行动的 AI 代理。
第四级，「Innovators」创新者，帮助发明的 AI。
第五级，「Organizations」组织，AI 可以实行全体人类组织的事情，这是实现 AGI 的末了一步。

按照这个标准，o1 目前在第二级，离 agent 还有间隔，但要达到 agent 必须会推理。

o1 面世之后，我们离 AGI 更近了，但仍旧道阻且长。

Sam Altman 表示，从第一阶段过渡到第二阶段花了一段韶光，但第二阶段能相对较快地推动第三阶段的发展。

最近的一场公开活动上，Sam Altman 又给 o1-preview 下了定义：在推理模型里，大概相称于措辞模型的 GPT-2。
几年内，我们可以看到「推理模型的 GPT-4」。

这个饼有些迢遥，他又补充，几个月内会发布 o1 的正式版，产品的表现也会有很大的提升。

o1 面世之后，《思考，快与慢》里的系统一、系统二屡被提及。

系统一是人类大脑的直觉反应，刷牙、洗脸等动作，我们可以根据履历程式化地完成，无意识地快思考。
系统二则是须要调动把稳力，办理繁芜的问题，主动地慢思考。

GPT-4o 可以类比为系统一，快速天生答案，每个问题用时差不多，o1 更像系统二，在回答问题前会进行推理，天生不同程度的思维链。

很神奇，人类思维的运作办法，也可以被套用到 AI 的身上，或者说，AI 和人类思考的办法，已经越来越靠近了。

OpenAI 曾在宣扬 o1 时提出过一个自问自答的问题：「什么是推理？」

他们的回答是：「推理是将思考韶光转化为更好结果的能力。
」人类不也是如此，「字字看来皆是血，十年辛劳不屈常」。

OpenAI 的目标是，未来能够让 AI 思考数小时、数天乃至数周。
推理本钱更高，但我们会离新的抗癌药物、打破性的电池乃至黎曼猜想的证明更近。

人类一思考，上帝就发笑。
而当 AI 开始思考，比人类思考得更快、更好，人类又该如何自处？AI 的「山中方一日」，可能是人类的「世上已千年」。

张成晨

利若秋霜，辟除凶殃。
事情邮箱：zhangchengchen@ifanr.com

邮箱8

#欢迎关注爱范儿官方微信"大众年夜众号：爱范儿（微旗子暗记：ifanr），更多精彩内容第一韶光为您奉上。

爱范儿|原文链接· ·新浪微博

每期AI知识网

一文看懂 OpenAI 最强模型 o1怎么用好为何翻车对我们意味着什么

网站设计教程,打造专业、高效的在线平台

花店logo这样设计肯定会让你的商号收益暴增