全网最全 OpenAI o1 万字综述立异事理和团队

60s速读简介：o1是OpenAI 9月12日发布的针对繁芜推理问题的全新大模型，也便是Sam一贯说的“草莓”。
该模型在回答问题之前能够进行更永劫光的“思考”，且思考韶光越长，推理质量越高。
事理：基于强化学习的内化思维链学习，通过思维链式的问题拆解，模型可以不断验证和纠错。
表现：o1模型在编程、数学、物理和化学博士级问题等任务上提升显著，但在写作等任务上表现不如GPT4o。
构成：o1系列包括o1、o1-preview和o1-mini。
o1暂未公开，o1-preiview 付用度户和API用户已经可以利用。
o1-mini 速率更快、性价比更高。
影响：新的Scaling Laws已经涌现。
Ilya 一句话概括强化学习：让 AI 用随机的路径考试测验新的任务，如果效果超预期，那就更新神经网络的权重，使得 AI 记住多利用这个成功的事宜，再开始下一次的考试测验。
Self-play：实质是利用 AI 无限的打算能力来补足它数据利用效率不足的短板。
Critic Model：通过将推理过程进行过程分解，并且利用额外的更强更专项的Critic Model，可以将推理过程的监督扩展到更繁芜的问题上。
技能路线猜想：1. MCTS搜索；2. PRM仅在答案不可接管时进行MCTS搜索，或者用的是更节约的Beam Search；3. 迭代式的Bootstrap模型产生合理推理的能力，并将 Rationales 融入到演习过程内，让模型学会进行推理，类似于STaR的扩展版本。
逆向工程：由合成数据天生器、褒奖函数、策略优化器等模块构成。
干系论文：Let’s Verify Step by Step、STaR、rStar、Quiet-STaR。
团队：o1 的21个 Foundational 贡献者呈现出了高学历、高原谅性、多元化的特点：华人占比6/21，博士为主，但也有人有专科经历。
Github o1干系资料汇总：https://github.com/hijkzzz/Awesome-LLM-Strawberry

一、背景：OpenAI为什么现在发布新模型o1？

虽然OpenAI 2024年年化营收估量将从前一年的20亿美元大幅增长至约35亿美元，但仍无法覆盖其90亿的推理、演习本钱。

目前来说，OpenAI订阅的商业模式很难称得上是一个好的变现手段，更无法与广告这一互联网时期最佳商业模式相提并论。

全网最全 OpenAI o1 万字综述立异事理和团队

（OpenAI营收变革趋势，来源：tooltester）

在营收构成上，C端用户订阅、企业用户、API和ChatGPT Team业务分别占营收的55%、21%、15%和8%。

（OpenAI营收构成，来源：tooltester）

据The Information测算，在一年亏损50亿美元的情形下，OpenAI的现金流可能在未来一年内耗尽。
因此，连续融资成为了OpenAI一定的选择。
据彭博社，OpenAI目前正在商谈以1500亿美元的估值融资65亿，这一估值远高于去年10月时的860亿美元。

除此之外，首席科学家Ilya等核心人才出走，流量增长放缓，Sora“期货”迟迟未兑现，GPT-5一直跳票，大措辞模型预演习Scaling Law的边际效益递减，增长空间被质疑……在OpenAI发布o1模型之前，由ChatGPT发布引领的大模型革命陷入了前所未有的低谷。

与此同时，OpenAI的紧张竞争对手之一Anthropic ，从掉队于 OpenAI 18 个月，在o1发布前已经在模型层面追平，乃至有微弱的领先上风了。
Anthropic 6月发布的 Claude-3.5-Sonnet ，支持写200行可靠的代码，远超4o的20 行。

如下图所示，OpenAI自2022年11月ChatGPT发布以来的流量增长已经险些结束。

（ChatGPT访问量变革趋势，来源：tooltester）

与此相对应的，一二级市场的AI热潮正在持续降温。

一级市场方面，VC资金对AI初创公司投资占比在持续上升，占比靠近30%，但是在金额上已经回落到2020年的水平，降幅明显。

（VC对AI初创公司的投资金额和占比，来源：硅谷科技评论）

二级市场上，投资者的AI抱团追涨行情开始有了瓦解的迹象，以英伟达等公司为代表的美股AGIX指数从高点开始回落，险些回到了半年前的水平。

（AGI指数，来源：外洋独角兽）

在这样的背景下，通过全新的大模型o1给投资人“画饼”成为了OpenAI绝佳的选择。

二、征象：o1模型的超强推理能力1. OpenAI的模型迭代史

作为OpenAI在2023年GPT4发布以来最主要的模型更新，o1在数学、代码等方面推理能力显著提升。

2. 数据：o1在STEM领域表现出色，特殊是在数学和编程方面

2.1 数学方面，在2024年的AIME（一个旨在寻衅美国最聪明高中生的考试）测评中，GPT-4o只办理了13%的问题，o1的得分是83%。

2.2 编码方面，GPT-4o在竞争性编程问题(Codeforces)上的得分是11%，o1 是89%。

2.3 在博士级别的科学问题(GPQA Diamond)，GPT4o是56.1%，o1则超越人类博士69.7%，达到了胆怯的78%。

（o1与gpt4o的比拟，来源：OpenAI官网）

2.4 在启用视觉感知功能时，多模态o1在MMMU上得分为78.2%，成为第一个与人类专家竞争的模型。
在博士级别的科学问题上，特殊是物理和化学领域，o1更是大幅领先人类博士。

2.5 在IOI（国际信息学奥林匹克竞赛）中在每题 50 次提交的条件下取得了第 49%/213分。
在每题10,000次提交的情形下，该模型的得分达到了362，超过了金牌门槛。

（o1与gpt4o的比拟，来源：OpenAI官网）

2.6 安全性

衡量安全性的一种方法是测试模型在用户试图绕过安全规则时（称为“越狱”）是否连续遵守这些规则。
在最困难的越狱测试中，GPT-4o 得分为 22/100，而o1-preview 模型得分为 84/100。

2.7 不敷

通用人工智能的核心是通用和泛化性，但o1在写作、笔墨编辑等一些大略的自然措辞处理任务上并没有显著提升，这意味着o1的适用范围有一定的局限性。

3. 创新：self-play RL+内化COT

作为首个通过大规模强化学习算法演习的模型，o1能够在回答之前深入思考问题。
o1不再须要由用户输入繁芜的COT提示词，而是通过强化学习的办法，将思维链内化之后进行持续演习。

通过思维链式的问题拆解，模型可以不断验证、纠错，考试测验新的方法，这一过程显著提升了模型的推理能力。

o1的性能随着更多的强化学习（演习韶光打算）和更多的思考韶光（测试韶光打算）而持续提高。

通过强化学习+内化思维链的办法，o1不仅在量化的推理指标上有了显著提升，在定性的推理可阐明性上也有了明显的改进。
可信的思维链使模型变得可阐明，让用户可以用大略的英语“读懂模型的思维。

内化的思维链为监控模型供应了独特的机会。
假设它是虔诚且清晰的，内化的思维链许可OpenAI“读取”模型的思考过程。
未来OpenAI可能希望监控思维链是否有操控用户的迹象。
为了实现这一目标，模型必须能够以未经修正的形式表达其思想，因此OpenAI不能在思维链上演习任何政策合规性或用户偏好。

4. 普通的理解：系统1与系统2

可以这样理解，模型进行的是系统1思维，而思维链则解锁了系统2思维。

众所周知，通过提示模型“逐步思考”可以提升大模型的性能。
而通过强化学习演习，逐步拆解问题并从头到尾持续试错，将会进一步大幅提升大模型的性能。
正如我们之前在围棋方面的AlphGo以及其它游戏方面的算法模型上所看到的。

系统1与系统2来自诺贝尔经济学奖得主丹尼尔·卡尼曼的《思考，快与慢》，其核心不雅观点包括：

系统 1：快速、直不雅观、自动的思维办法。

这种思维模式常日是无意识的，依赖于直觉和履历，能迅速做出反应。
例如，看到一个熟习的面孔时，我们险些无需思考便能认出它。

系统 2：慢速、寻思熟虑、逻辑性的思维办法。

这种思维模式须要故意识的努力和思考，用于办理繁芜问题或做出寻思熟虑的决策。
例如，办理数学题或操持长期目标时，我们会调动系统 2 的思维。

（系统1与系统2的比拟，来源：简书）

5. 案例

案例网上很多，这里只大略提下“草莓”这个最经典的案例。

草莓的梗最初是由于人们测试GPT系列的时候，创造了模型无法数对草莓这个单词里面的r的数量。
而OpenAI的新模型可以通过self-play的办法提升模型Reasoning的能力，从而数对r的数量。
于是这个名叫草莓的模型就开始在网上不断发酵，并在Sam各种故意无意的暗示中升温。

6. 业界关于o1模型的正负面不雅观点

6.1 正面不雅观点

Jason Wei，OpenAI研究员，COT作者：

“通过将繁芜步骤分解为更大略的步骤、识别和纠正缺点，以及考试测验不同的方法，o1 的表现完备令人惊叹，游戏规则已经被彻底重新定义。
”

杨植麟，Kimi创始人：

“规模定律之后，大模型发展的下一个范式是强化学习。
对付通用智能AGI来讲，可能会有三个层面：最底层是规模化定律，这是第一个层次的创新机会，它被OpenAI创造，并且做到极致。
第二个层次的创新机会，便是Scaling law框架下有一些问题没有办理，比如怎么把所有的模态用统一的表示放到同一个模型里面去？这是第二个层次的寻衅。
第三层次的问题，比如能够去做更长的高下文，能够有更强的 reasoning 或者 instruction-following 。

决定这一代AI技能的上限，核心是文本模型能力的上限，如果文本模型能持续提升智商，就能做越来越繁芜的任务。
AI产品的能力由模型能力的决定，这和互联网时期有实质不同，模型能力不强，产品体验就不会好。
AI时期的超级运用，大概率会是一个AI助理。
这一代AI最大的变量，还是在生产力端。
现在社会里面每一单位的生产力可能都会有十倍提升的机会。
”

肖仰华，复旦打算机科学技能学院教授、博导：

“o1模型的涌现意味着大模型的推理能力完备能够达到专家级水平，算得上是人工智能里程碑式的进展，将给模型在企业真个运用带来极大的提升。
但随着模型在知性、感性和理性三方面的能力均不断提升后，其将超越人类的能力，未来人工智能将对人类产生何种影响还很难预测，人工智能的发展速率现在超过了人类对其认知的速率，人工智能管理将是一个巨大寻衅。

大规模强化学习算法教会模型如何在演习过程中有效利用其思维链进行思考，o1模型可以在回运用户之前产生一个很长的内部思维链。
以前的大措辞模型更像一个文科生，间隔理科生的水平仍旧较远。
但人类智能的核心能力是思考和思维，OpenAI新推理模型o1系列将人的思维过程展现出来。

我们创造o1的表现超过了一些人类专家，成为第一个在这个基准上做到这一点的模型。
这些结果并不虞味着o1在所有方面都比博士更有能力，只是模型在办理博士须要办理的一些问题方面更闇练。
人类目前对人工智能基本认知框架都有所欠缺，这是一个巨大的管理寻衅，就业、经济、伦理、社会关系等话题将引起广泛谈论。
”

6.2 负面不雅观点

复旦NLP实验室：

“博士级”模型GPT-o1折戟中学数学“陷阱”问题，准确率仅为24.3%

我们的最新研究结果却给这个”AI天才”泼了一盆冷水——在面对中学数学水平的”陷阱”问题时，GPT-o1惨遭滑铁卢：在我们最新的中学陷阱问题测试集MathTrap_Public上，调用GPT-o1-preview官方API后天生的回答准确率仅为24.3% 。

我们在 GSM8K 和 MATH 数据集问题的根本上，加入了一些“陷阱”，布局了 MathTrap 数据集。
这些改编后的题目很多时候没有定义明确的答案或者无解，只有能够同时理解原题和“陷阱”所涉及知识的模型，才能找出个中的抵牾点，创造“陷阱”所在。

因此，单靠“刷榜”来提高在 GSM8K 和 MATH 上的成绩，是没办法在 MathTrap 上取得好成绩的，由于这些模型缺少质疑题目条件的能力。

干系研究：Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning Through Trap Problems

论文链接：https://arxiv.org/pdf/2405.06680

7. 如何利用

7.1 ChatGPT付用度户

ChatGPT Plus和Team用户从9月12日可以开始在ChatGPT中访问o1模型。
o1-preview和o1-mini可以在模型选择器中手动选择，o1-preview的每周限定为50条，o1-mini 为每天50条。
ChatGPT Enterprise 和 Edu 用户将不才周开始访问这两个模型。

符合 API 利用等级 5 的开拓者可以立即开始在 API 中利用这两个模型，限定为每分钟 20 次要求。
OpenAI还操持将 o1-mini 的访问权限扩展到所有 ChatGPT 免用度户。

详见https://openai.com/index/introducing-openai-o1-preview/

7.2 非ChatGPT付用度户

Cursor已经支持了最新的o1模型，没有ChatGPT会员权限的可以通过这个产品进行体验。

8. 影响和意义

8.1 对大模型行业的影响

新的Scaling Laws —— Post-Training Scaling Laws（后演习扩展定律）已经涌现，并可能引发行业对付算力分配、后演习能力的重新思考。

o1 模型的发布，意味着 AI 能力的提升不再局限于预演习阶段，还可以通过在 Post-Training 阶段中提升 RL 演习的探索韶光和增加模型推理思考韶光来实现性能提升，即 Post-Training Scaling Laws。

数据飞轮 + Bootstrap -> SuperIntelligence : 基于自我反思的模型将能够实现自举 Bootstrap，并提升大大提升模型对付未见过的繁芜问题的办理能力，模型的推理过程形成大量高质量数据的飞轮，并终极有可能向 SuperIntelligence 更进一步。

8.2 AI能力的等级跃迁

AI开始具备推理能力，且繁芜问题的办理能力可以与人类相媲美，这意味着AI从仅能利用工具和规则的 Level 1 水平开始进化到了 Level 2 的阶段，并向第3阶段开始探索。

（5 Levels Of AI Agents，来源：cobusgreyling）

8.3 对从业职员的影响

1）AI产品经理的危与机

危：一方面，随着o1将思维链内化进模型，大幅降落了提示词工程的难度。
这意味着AI产品经理未来大概率不再须要设计繁芜的提示词，刚刚兴起1年多的“提示词工程师”岗位风雨飘摇，AI产品经理也同样将因此受到很大的冲击。

之前办理繁芜问题，须要人写非常繁芜的Prompt，而o1实质上是COT等繁芜Prompt的自动化，以是之后是不须要用户自己布局繁芜Prompt的。

机：另一方面，随着o1代码能力的大幅提升，代码编写的门槛得到了一定程度的降落，AI产品经理有机会设计、开拓、上线一条龙完成，大大提升AI产品MVP迭代的效率。

2）工程

虽然AI取代工程开拓还言之尚早，但大模型在短韶光内的进步之大还是让人震荡，低级开拓的门槛与AI越来越模糊。
大概在不远的将来，英文就将成为最盛行的编程措辞。

而短期来说，工程开拓的效率有望借助o1模型和Cursor等工具产品进一步提升。

3）算法

虽然强化学习算法在InstructGPT的论文中就已经被提及，但之前更多是作为RLHF基于人类反馈的强化学习的视角进行切入，很少作为单独的方向被重点提出。

o1模型发布后，强化学习的主要性大大提高，其在大模型领域的运用有望成为接下来一段韶光海内大模型公司混战的新焦点。

三、背后：技能事理与干系论文1. 根本知识

1.1 强化学习

机器学习算法紧张分为监督学习、无监督学习和强化学习三类。
无监督学习相称于学生自学，没有任何老师辅导，完备依赖学生自己琢磨；监督学习相称于有老师辅导，有明确对错的学习；强化学习则是做对题目有褒奖，做错题目有惩罚的学习。

强化学习（Reinforcement Learning，RL）是一种基于反馈的学习方法，对算法实行的精确和禁绝确行为分别进行褒奖和惩罚的制度，目的是使算法得到最大的累积褒奖，从而学会在特定环境下做出最佳决策。
“强化”一词来自于生理学，生理学中的“强化”便是通过供应一种刺激手段来建立或者鼓励一种行为模式。
这种“强化”详细分为两种：

积极强化，是指在预期行为呈现后，通过给予勉励刺激以增加进一步导致积极反应。

负面强化，通过供应适当的刺激来减少涌现负面(不肯望的)反应的可能性，从而纠正不肯望涌现的行为。

想象一下，当你第一次自己玩超级马里奥，你须要在游戏中不断探索环境和主要的NPC，一个缺点的举动会导致失落去一条“命”，一个精确的跳跃可以把我们带到一个更安全的地方得到金币褒奖！
在n次褒奖和惩罚的探索之后，你对付马里奥游戏的闇练程度越来越高，操作的精确性大大提升，终极成为一个该游戏的高手。

1.2 Self-play

Self-play 是 AlphaZero 等强化学习算法的合成数据方法，最早可以追溯到 1992 年的 TD-Gammon 算法，实在质是利用 AI 无限的打算能力来补足它数据利用效率不足的短板。

以 AlphaZero 为例，在每一局对弈中，模型利用蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）来选择动作。
MCTS 结合了当前神经网络供应的策略（policy）和代价（value），从而在每个游戏状态下评估出最优的行动。
其详细步骤如下：

1) 随机初始化：模型从完备随机初始化的状态开始，没有任何人类先验知识。

2) self-play：模型自己与自己进行对弈，天生大量的游戏数据。
个中好的结果用于更新模型的参数。

3) MCTS：在每一次对弈中，AlphaZero 会利用 MCTS 来搜索最佳动作。
MCTS 利用策略网络（policy network）供应的动作概率分布和代价网络供应的局势评估结果来勾引搜索。

4) 策略更新：根据自我对弈的结果，利用强化学习的办法来更新神经网络的参数，使得模型逐步学习到更优的策略

1.3 Self-play强化学习、RLHF

早在2018 年，Ilya Sutskever就认为强化学习与 self-play 是通往 AGI 路上最关键的方法之一。
Ilya 用一句话概括了强化学习：让 AI 用随机的路径考试测验新的任务，如果效果超预期，那就更新神经网络的权重，使得 AI 记住多利用这个成功的事宜，再开始下一次的考试测验。

1）传统强化学习与self-play的差异：传统强化学习与本日的 self-play 强化学习比较，最大的差异是强化学习算法模型（如AlphaZero）是一个千万参数的神经网络，和本日的措辞模型相差 3-4 个数量级。

2）Self-play 强化学习与RLHF 的差异：RLHF 的目的不是获取机器智能，而是人机对齐，使得 AI 能够更像人，但不能超越人成为超级智能。
大略来说：RLHF 像人类一样，更喜好好理解的东西，而不是喜好逻辑更严密的内容。
而 self-play 强化学习的目标是如何提升逻辑能力，绝对强度更高，乃至超越最强人类、专家。

3）RLHF 的核心是通过强化学习演习措辞模型，但由于缺少褒奖函数这一必要成分，因此须要通过网络人类的反馈来学习一个褒奖函数。

4）强化学习不是一个模型，而是一整套的系统，个中包含了很多成分，第一，强化学习包括了智能体，个中的 agent 便是模型。
第二，包括了环境，环境可能是狗主人的家，也可能是编程环境，也可能是垂直领域。
第三，包括了动作，是狗坐下，还是一些其他模态的输出。
第四，包括了褒奖模型，这也很主要。
最主要的两个成分是环境和智能体。
智能体的目标是得到更多褒奖。

（强化学习构成，来源：外洋独角兽）

强化学习在措辞模型中的思路，实质上是 inference time 换 training time 。

1.4 为什么 RLHF 的效果优于 SFT？

PPO 算法的提出者是Berkeley PhD，OpenAI前研究员 John Schulman，他针对 RLHF PPO 提出了两个不雅观点：

第一，SFT 会导致 hallucination ：

John Schulman 认为，大型模型之以是会产生幻觉，是由于它们在 SFT 阶段学到了一些禁绝确的认知。
SFT 过强的监督旗子暗记导致人类实际上在勾引 ChatGPT 说它不知道的东西。
还有一种可能性，即 GPT 实际上知道答案，但标注职员不知道。

第二，RLHF 让大模型“知道”自己“确实不知道”。

RLHF 的过程不仅帮助模型意识到不愿定性，更主要的事情是 RLHF 帮助模型提高了 reasoning 能力。

只有通过正向和反向的双重实验，我们才可以判断这种药物敌人痛有效。
如果只有正向的例子，例如说患者吃了感冒药，感冒变好了，并不能证明感冒药能治好感冒。
只能解释，感冒药与患者感冒的好转有一定干系性。
而 RLHF 正是成功利用了负向数据，使得模型有机会真正节制因果性。

总结来说，RLHF 有以下上风：

利用 negative signal 进行比拟学习，通过比拟的过程可以帮助模型降落 halluciation。
‍

强化学习不是一个固定的过程。
它许可模型随着能力的不断提升，通过不断地问问题、给出答案、评判，从而让模型一直地从当前能力的边界进行主动探索，并不断拓宽自己的能力边界。
‍

这两个成分共同浸染能够形成 counter-factual reasoning 的浸染，有可能解锁因果学习（casual learning）的巨大潜力，让模型具备更强的 reasoning 能力。

1.5 PRM与ORM

PRM（Process reward model）是褒奖好的推理步骤，而不仅仅是精确的结果。
这更靠近人类的学习和推理办法，实现办法常常是用 COT 来表示推理过程，对每一步进行打分。
这是由于 LLM 的语义理解能力才成为可能的。
在传统 RL 中，我们按照终极结果评分，其评分模型称为 ORM（outcome reward model）；而通过专门演习 LLM 成为 process verifier ，新的评分模型叫做 PRM，每每是使较小 LLM fine-tune 得到。

OpenAI 的 verify step-by-step 也是最近最主要的 paper 之一。
他们演习的 PRM 在办理 MATH 数据集测试集中 78.2%的问题时表现优于 ORM。
在今年 Google Research 的一篇 paper 中提到，PRM 在过程中一旦成功创造第一个缺点，就能使 RL 演习效果显著提升。

1.6 Critic Model

随着任务繁芜度的提高，仅仅依赖模型的自身推理能力可能无法供应有效的褒奖旗子暗记。
这使得对付模型内部的繁芜推理过程的监督变成了一个可扩展监督问题。

详细来说，o1的隐式思维链的演习过程中应该也引入了Critic的方法。
通过将推理过程进行过程分解，并且利用额外的更强更专项的Critic Model，可以将推理过程的监督扩展到更繁芜的问题上。
这也一定程度缓解了仅仅是通过推理过程能否导出精确结果的来确定褒奖旗子暗记的稀疏问题。

OpenAI的CriticGPT通过RLHF方法演习模型能够为真实天下中的代码任务书写自然措辞反馈，并成功泛化到OOD（模型在演习过程中没有碰着过的数据）的分布上。
这种反馈可以用来帮助人类进行更准确的评价，从而实现对付繁芜输出的有效褒奖反馈。

2. 关于技能事理的猜想

2.1 OpenAI官方的“提示”

通过强化学习，o1 学会了精髓精辟其思维链并优化所用的策略。
它学会了识别并纠正缺点，将繁芜的步骤分解为更大略的部分，并在当前方法无效时考试测验不同的路子。
这一过程显著提升了模型的推理能力。

o1 模型引入了推理标记。
模型利用这些推理标记进行“思考”，分解对提示的理解并考虑多种天生相应的方法。
天生推理标记后，模型会将答案天生为可见的完成标记，并从其高下文中丢弃推理标记。

以下是用户与助手之间多步骤对话的示例。
每个步骤的输入和输出标记都会被保留，而推理标记则会被丢弃。

（推理是如何进行的，OpenAI官网）

2.2 猜想1

张俊林：MCTS搜索技能路线

OpenAI o1提到了关于RL在演习和推理时候的Scaling law，并指出这与预演习时候的Scaling law具有不同特性。
很明显，如果o1走的是MCTS搜索技能路线，那么把COT拆分的越细（增加搜索树的深度），或提出更多的可能选择（节点的分支增多，便是说树的宽度越宽），则搜索空间越大，找到好COT路径可能性越大，效果越好，而演习和推理的时候须要算力肯定越大。
看上去有着效果随着算力增长而增长的态势，也便是所谓的RL的Scaling law。
这实在是树搜索本来应有之义，我倒以为把这个称为RL的Scaling law有点名不副实。

2.3 猜想2

腾讯科技周小燕郝博阳：PRM仅在答案不可接管时进行MCTS式的搜索，或者用的是更节约的Beam Search。

从反应韶光和token花费两方面看，根据Hackernews上利用了API的开拓者推算，o1进行推理所花费的token是其给出答案token的10倍，是未进行思维链的GPT-4o mini 所用token的60-100倍。
如果采取能看三步的、每步形成5个候选，单层深度的Lookahead Search就会花费45倍token。
但用到了思维链每步都须要进行一次Lookahead Search的话，就会远超100倍token。
其余考虑到MCTS这么大的打算量，目前o1的反馈韶光是远远不足的。

但如果仅用思维链，纵然是非常繁芜的问题，token花费最多也便是达到5-10倍。
其60倍token花费又太大了。

2.4 猜想3

北大对齐团队：o1利用的技能关键还是在于强化学习的搜索与学习机制，基于LLM已有的推理能力，迭代式的Bootstrap模型产生合理推理（Rationales)的能力，并将 Rationales 融入到演习过程内，让模型学会进行推理，而后再利用足够强大的打算量实现Post-Training阶段的Scaling。
类似于STaR的扩展版本。

模型学习的是产生合理推理的过程，MCTS 在个中的浸染是勾引合理推理过程的产生或构建相应的偏序对形成细粒度褒奖旗子暗记，而非直接搜索过程和终极答案。

为了优化这一过程，产生了一系列方法，个中包括在 Token 级别或子句级别供应褒奖旗子暗记，帮助模型调度天生的回答。
这些方法如MCTS，将输出建模为一系列节点，这些节点可以是 Token 级别或句子级别。
例如：

Token 级别的节点：每个节点对应天生序列中的一个 Token。
通过 MCTS，模型可以探索不同的 Token 序列，最终生成更连贯的相应。

句子级别的节点：在繁芜推理任务中，每个节点可以代表一个完全的句子或推理步骤，帮助模型更好地处理多步推理任务。

3. 干系论文

3.1 Jason Wei 的 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models，也便是著名的COT。

紧张内容：通过一系列中间推理步骤，能显著提高大型措辞模型实行繁芜推理的能力，提出了一种名为“chain of thought prompting”的方法，通过供应几个思维链条示例，无需对模型进行微调，就能自然地引发大型措辞模型的推理能力，实验结果表明该方法在算术、知识和符号推理任务上显著提高了三种大型措辞模型的表现。

链式思维推理能力的呈现：链式思维推理能力并非所有模型都具备，而是随着模型规模的扩大而逐渐呈现。
对付须要多步推理的任务，链式思维提示能够显著提升模型性能，尤其是在大型措辞模型上表现尤为突出。

该方法也为提升模型可阐明性和鲁棒性供应了新的思路。

CoT 通过分步推理的办法，哀求模型在天生终极答案之前，师长西席成一系列中间推理步骤。
这种 “思考链” 的天生过程有助于增强模型的推理能力，尤其在数学和代码天生等任务中表现出色。

然而，CoT虽然能够天生中间步骤，但并未教会模型如何从内部深入思考问题的关联。
特殊是对付尤其繁芜且须要多步推理方案的任务，这样的合理的中间 CoT 推理过程（Rationales) 更为主要。

3.2 Ilya等人的Let’s Verify Step by Step

紧张内容：比较了两种演习大型措辞模型进行繁芜推理的方法：结果监督和过程监督，并得出以下紧张贡献：

1）过程监督比结果监督更有效

研究表明，过程监督演习出的褒奖模型比结果监督更可靠，能够办理 MATH 数据集 78.2% 的问题，而结果监督只能办理 66.4%。
过程监督供应了更精确的反馈，指出了缺点发生的详细位置，有助于模型更好地进行信用分配和学习。

2）大型褒奖模型可以有效地近似人类监督

研究创造，大型褒奖模型可以有效地近似人类监督，用于演习小型褒奖模型，从而降落了数据网络的本钱。
这为大规模数据网络溶解实验供应了可能性，并可以用于评估不同监督方法的效果。

3）激活学习提高了过程监督的数据效率

研究创造，激活学习可以将过程监督的数据效率提高 2.6 倍，这意味着可以利用更少的数据得到更好的模型性能。
激活学习通过选择最有代价的模型输出进行人工标注，从而提高了数据网络的效率。

4）发布了 PRM800K 数据集

论文发布了 PRM800K 数据集，包含 800,000 个步骤级别的标注数据，用于演习褒奖模型。

3.3 斯坦福&谷歌STaR: Bootstrapping Reasoning with Reasoning

1）紧张事理

STaR 的核心思路是利用 LLM 已有的推理能力，迭代式的 Bootstrap 模型产生合理推理过程（Rationales) 的能力，并将 Rationales 融入到演习过程内，让模型学会进行推理。
其基本流程如下：

推理：起始数据集仅有 [Question, Answer] ，首先利用一些带有推理过程的 Few-Shot Examples 来 Prompt 模型对付数据集中的问题天生对应的推理过程和答案。

过滤：如果天生的答案精确，则将推理过程加入到原有的数据集中；如果天生的答案缺点，则考试测验在给出精确答案的条件下再次天生推理过程。
将最终生成精确答案的推理网络，构建一个构建一个微调数据集 [Question, Rationale, Answer ] 进行微调。

迭代：重复这一过程，且每次得到一个新的数据集，都从原始的模型开始进行 Fine-tune 从而防止过拟合。

2）创新点

迭代勾引：STaR 不须要构建大规模的推理链数据集，而是通过少量示例勾引 LLM 天生自身的推理链，实现自我提升。

Rationalization 技能：STaR 引入了 Rationalization 技能，通过供应精确答案作为提示，帮助 LLM 天生新的推理链，战胜了正向推理演习的局限性，能够从失落败案例中学习。

3）STaR 的上风

提升推理能力：STaR 能够有效提升 LLM 在数学推理、知识推理等繁芜任务上的性能。

降落数据需求：STaR 不须要大规模的推理链数据集，降落了数据获取的难度和本钱。

提高鲁棒性：STaR 能够让 LLM 从失落败案例中学习，提高其在繁芜问题上的鲁棒性。

4）STaR 的局限性

初始模型哀求：STaR 须要初始模型具有一定的推理能力，否则难以启动勾引过程。

对少样本示例的依赖：STaR在推理任务中高度依赖少量的Few-Shot推理示例，这导致模型的推理能力较为有限，难以应对繁芜和广泛的任务。

泛化能力受限：STaR虽然能够通过迭代的办法提升模型的推理能力，但其运用紧张局限于特定的构造化任务（如问题回答），难以在开放域或任意文本天生任务中取得同样的效果。

数据质量影响：STaR 的性能受初始推理链质量的影响，如果初始推理链存在偏差，则可能导致 STaR 学习到缺点的推理模式。

阐明虔诚度：STaR 天生的推理链可能无法完备反响 LLM 的内部推理过程，存在阐明虔诚度的问题。

5）STaR 与强化学习目标的相似之处

迭代更新：STaR 和强化学习都采取迭代的办法更新模型，不断优化其性能。

褒奖旗子暗记：STaR 通过迭代的办法天生推理链，并利用精确答案作为反馈旗子暗记，类似于强化学习中的褒奖旗子暗记，用于辅导模型的更新方向。

6）STaR 与强化学习目标的差异

目标函数：STaR 的目标函数与强化学习中的策略梯度目标不完备相同，STaR 更关注推理链的天生和优化。

模型构造：STaR 利用预演习的 LLM 模型，而强化学习可以采取各种类型的模型。

演习方法：STaR 利用基于梯度的方法进行模型更新，而强化学习可以采取多种演习方法，例如 Q-learning、Sarsa 等。

3.4 微软的 rStar：Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

1）紧张贡献

rStar 是一种创新的self-play自我推理方法，旨在提升小措辞模型 (SLM) 的推理能力，无需微调或高等模型的支持。
其核心思想是将推理过程分解为天生和鉴别两个阶段，并通过自我博弈的办法实现 SLM 之间的相互学习。

2）紧张创新点

丰富的推理动作：rStar 引入了五种人类似推理动作，仿照人类在推理过程中的行为，这使得 SLM 能够天生更高质量的候选推理轨迹，有效探索办理方案空间。

相互同等性鉴别：rStar 利用另一个与目标 SLM 能力相似的 SLM 作为鉴别器，对天生的候选推理轨迹进行评估。
鉴别器通过完成部分推理步骤并供应反馈，帮助目标 SLM 选择更可靠的推理路径。

无需微调或高等模型：rStar 不依赖于微调或高等模型的辅导，能够独立提升 SLM 的推理能力，使其在无需额外资源的情形下得到显著的性能提升。

实验结果表明，rStar 能够有效办理多种推理问题，并在多个 SLM 上取得了显著的性能提升。
例如，在 GSM8K 数据集上，rStar 将 LLaMA2-7B 的准确率从 12.51% 提升至 63.91%，将 Mistral-7B 的准确率从 36.46% 提升至 81.88%。

A. 天生阶段 (MCTS Rollout):

动作空间: rStar 引入了五种人类似推理动作，仿照人类在推理过程中的行为：

A1: 提出一个一步思考。

A2: 提出剩余的思考步骤。

A3: 提出下一个子问题及其答案。

A4: 再次回答子问题。

A5: 重述问题/子问题。

MCTS 搜索: 利用 MCTS 算法，根据当前状态和动作空间，逐步天生候选推理轨迹。

褒奖函数: 设计 SLM 定制褒奖函数，根据推理步骤对终极答案的贡献程度进行评估，并辅导 MCTS 树的扩展。

这些动作帮助模型更好地探索办理方案空间的缘故原由：

多样性: 丰富的动作类型使得模型可以考试测验不同的推理策略，避免陷入固定的思维模式。

灵巧性: 模型可以根据当前状态选择得当的动作，灵巧应对不同的问题。

分解: 通过将繁芜问题分解为子问题，模型可以逐步办理，降落推理难度。

验证: 通过重新回答子问题，模型可以验证子问题的答案是否精确，提高推理的准确性。

B. 鉴别阶段 (Mutual Consistency):

鉴别器 SLM: 利用另一个与目标 SLM 能力相似的 SLM 作为鉴别器，对天生的候选推理轨迹进行评估。

部分提示: 将候选推理轨迹的一部分作为提示，让鉴别器完成剩余的推理步骤。

同等性验证: 比较鉴别器完成的推理步骤与原始轨迹的同等性，选择相互同等的轨迹作为终极答案。

互同等性帮助模型选择精确的推理轨迹的缘故原由：

外部验证: 鉴别器作为外部评估者，为模型供应客不雅观的反馈，避免模型自身评估的偏差。

降落难度: 通过部分提示，降落鉴别器推理的难度，提高其供应精确答案的概率。

群体聪慧: 两个 SLM 之间的相互验证，类似于人类群体中的差错互评，可以更有效地识别精确答案。

C. 终极轨迹选择:

终极得分打算: 将候选轨迹的褒奖值与终端节点的置信度得分相乘，打算终极得分。

选择最佳轨迹: 选择终极得分最高的轨迹作为终极答案。

3.5 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

1）贡献1

将 STaR 推广到学习推理，也是其与 STaR 的紧张差异。
STaR 紧张针对特界说务进行推理学习，而 Quiet-STaR 则将推理学习推广到更广泛的文本数据中。
这使得措辞模型能够在更通用的场景下进行推理，并从多样化的文本任务中学习。

2）贡献2：并行采样算法

这是实现 Quiet-STaR 的关键技能之一。
并行采样算法能够高效地天生每个 token 的推理，从而使得模型能够从大规模文本数据中学习推理。

3）其他创新点

元 token、稠浊头、非短视丢失函数等创新点都是为了更好地实现 Quiet-STaR 的目标，即让措辞模型能够学习推理并提高其预测能力。

3.6 Google Deep Mind 的Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

针对现有 LLM 推理能力有限的不敷，提出了以下创新方法和策略：

1）创新方法

PRM 验证器和树搜索算法：通过演习一个过程褒奖模型来评估每一步的精确性，并利用树搜索算法（如束搜索和前瞻搜索）在办理方案空间中进行搜索，找到最优答案。

迭代修订模型：通过微调 LLM，使其能够迭代地修正其初始答案，使其逐渐靠近精确答案。

2）创新策略

推理时打算最优扩展策略：根据提示的难度动态选择最佳的推理时打算策略，以最大化性能提升。

打算预算交流：将推理时打算和预演习打算进行比较，创造对付大略和中等的推理任务，推理时打算可以有效地替代额外的预演习打算，从而降落预演习本钱。

3）改进

性能提升：在相同的打算预算下，利用“推理时打算最优扩展策略”可以显著提升 LLM 的性能，并优于传统的最佳-of-N 策略。

预演习本钱降落：对付大略和中等的推理任务，可以利用推理时打算来替代额外的预演习打算，从而降落预演习本钱。

模型泛化能力提升：通过迭代修订模型，LLM 可以学习从缺点中吸取教训，并改进其推理能力，从而提升模型的泛化能力。

Google在研究中提到了从大略到繁芜的三种方案，直接在多个答案中选最佳解的方法（Best of N），在思维链中每步都供应多个候选项的方法（Beam Search）和把后续多个步骤联系起来看的MCTS方法的简化版本Lookahead Search。

我们可以考试测验着在推理阶段不哀求模型一次做对的能力,而是让LLM去考试测验一题多解, 然后针对多个答案进行评估打分, 终极输出一个精确的答案. 在答案评估的时候,同时引入对过程的评估，即Process-based Reward Model(PRM)。
搜索方法上, 它采取了Lookahead Search, 实质上是MCTS的一种分外形式.

4. 可能的“逆向工程”

（o1可能的架构图，来源：https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/）

下面是关于这张架构图的详细解释，紧张包括四个阶段：

4.1 数据天生

数据天生模块卖力创建用于演习的数据，包括：

合成数据天生器（Synthetic Data Generator）、人类专家、CoT数据库（CoT Dataset，链式思维数据库）、现实天下和沙盒数据

这些数据被搜集起来，形成演习数据，用于后续模型的演习阶段。

4.2 演习阶段

演习阶段紧张由以下几个模块组成：

措辞模型，这是核心的AI模型，卖力处理和理解措辞数据。

RL环境，强化学习环境用于模型优化。

褒奖函数，包括验证（Verification）和人类反馈（Human labeling），用来辅导模型学习。

策略优化器（Policy Optimizer），包括梯度压缩、Panzar系统、探索与利用等，用于优化模型策略。
在这个阶段，模型通过强化学习和高等技能进行演习，不断优化性能和效率。

4.3 推理阶段

推理阶段包括：

演习好的模型，这是通过强化学习和高等技能优化后的模型。

多任务天生，处理多个任务的能力。

终极相应，天生终极的输出结果。

CoT天生和微调，根据链式思维天生并微调结果。

效率监控：实时监控模型的性能。

4.4 关键注释

大规模CoT存储进入RL环境是作者自己的假设，作者认为OpenAI可能会利用从现实天下中天生的大量链式思维来进一步调整和优化RL模型。
举例解释：假设你是一名研究员，想要构建一个能够进行多任务处理的AI系统。

我们可以通过参考这个o1架构按照上面三个模块进行以下事情：

1）首先，网络并天生各种类型的数据，包括合成数据、人类专家供应的数据以及现实天下的数据。

2）接着，利用这些数据演习你的措辞模型，并在强化学习环境中进行优化，通过褒奖函数和策略优化器不断提升模型性能。

3）末了，将演习好的模型支配到推理阶段，使其能够处理多任务并天生终极相应，同时监控其效率并进行必要的微调。
这种架构不仅适用于措辞处理，还可以扩展到其他领域，如图像识别、游戏开拓等，通过不断优化强化学习过程，使得AI系统更加智能高效。

四、幕后：o1背后的团队

在 OpenAI 公布的o1模型的参与职员中，不仅包括前首席科学家Ilya Sutskever，COT 作者 Jason Wei，还包含了Jiayi Weng等大量华人科学家。

在o1 的21个Foundational贡献者呈现出了高学历、高原谅性、多元化、国际化等特点。

学术背景：14人拥有博士学位，3人以本科学位进入OpenAI，1人有专科经历，5人有斯坦福背景；国家背景：团队来自至少8个国家，包括美国、中国、印度、韩国、意大利、土耳其、以色列、波兰，呈现出了高度的国际化。
个中以色列2人。
华人贡献：作为人数最多的国家之一，6个华人本科分别来自清华、北大、剑桥、哈佛、达特茅斯。
从某种程度上来说，OpenAI 在AI技能上的领先离不开华人的贡献。
事情背景：作为OpenAI最紧张的竞争对手，贡献者中11人有 Google 背景，5人没有干系名企履历；

注：2人未找到干系资料。

21个Foundational贡献者资料明细

五、干系名词阐明1. MCTS

1.1 观点：蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）是一种用于某些类型决策过程的启示式搜索算法，特殊是在双人零和游戏中。
它结合了蒙特卡洛仿照的随机抽样和决策树搜索的系统性。
MCTS在打算博弈论和人工智能领域中非常有用，尤其是在围棋、国际象棋和其他策略游戏中。

1.2 MCTS的基本步骤

1）选择：从根节点开始，按照特定的策略，选择最有出息的子节点，直达到到一个尚未完备展开（即还有未探索的行动）的节点。

2）扩展：在选择的节点上添加一个或多个子节点，这些子节点代表了可能的下一步辇儿为。
这涉及到游戏状态的更新，将游戏向前推进到一个新的状态。

3）仿照：重新添加的节点开始，进行蒙特卡洛仿照，直到游戏结束或达到预定的仿照深度。
这个过程不须要完美信息，可以利用随机策略来选择行动。

4）反向传播：将仿照的结果（比如输赢或得分）更新到所访问路径上的所有节点。
如果仿照结果是胜利，则增加沿途节点的胜利次数；如果是失落败，则相应地更新失落败的统计数据。

1.3 关键特点

1）自适应搜索：MCTS能够根据之前的搜索结果自适应地搜索那些更有希望的区域。

2）无启示式：与某些其他搜索算法不同，MCTS不须要领域特定的启示式评估函数。

3）并行化：仿照步骤可以独立进行，因此MCTS很随意马虎并行化，这使得它在多核处理器上特殊有效。

1.4 Beam Search、Lookahead Search、MCTS比拟

Beam Search：一种启示式的图搜索算法，常用于机器翻译、语音识别等领域的解码过程。
它在每一步都从当前节点扩展出一定数量（beam width）的最有出息的子节点，而不是搜索所有可能的子节点，从而减少了搜索空间。

Beam Search的优点是打算效率高，但缺陷是可能会错过一些不那么显而易见但终极可能更优的路径。

Lookahead Search：一种在Beam Search根本上的扩展，它在搜索时不仅考虑当前步骤的最优解，还会向前看多步，考虑未来的可能性。
这种搜索策略可以帮助算法做出更长远的决策，但打算本钱也会随之增加。

Lookahead Search的关键在于它考试测验预测并评估不同的决策路径，从而选择最优的行动方案。

MCTS：一种用于某些类型决策过程的启示式搜索算法，它结合了随机仿照和决策树搜索。
MCTS通过多次仿照来评估不同的决策路径，并根据这些仿照的结果来选择最优的行动。

MCTS特殊适用于双人零和游戏，如围棋、国际象棋等，它通过构建全体树来探索所有可能的行动路径，并通过仿照来评估这些路径。

2. Bootstrap

这是一种重采样技能，用于从原始数据集中天生新的样本集，以此来估计一个统计量（如均值、方差等）的分布。
通过这种方法，可以不须要对总体分布做出任何假设，就能够估计出模型参数的不愿定性和稳定性。

Bootstrap方法的步骤常日包括：从原始数据集中随机抽取样本，许可重复抽样（即有放回抽样）；根据抽取的样本打算所需的统计量；重复上述过程多次（常日是数千次），以得到统计量的分布；利用这个分布来估计原始统计量的标准偏差、置信区间或其他特色。

在机器学习领域，Bootstrap方法可以用来提高模型的泛化能力和鲁棒性。
例如，通过Bootstrap抽样可以创建多个不同的演习集，然后用这些演习集来演习多个模型。
这些模型可以结合起来，形成一个集成模型，如随机森林或Bagging模型，以此来减少过拟合和提高模型的预测准确性。

3. PPO

PPO（Proximal Policy Optimization，近端策略优化）是一种在强化学习领域广泛利用的算法，它属于策略梯度方法的一种。
PPO算法的核心思想是在每次更新策略时，限定新策略与旧策略之间的差异，以保持演习过程的稳定性。

PPO算法有两个紧张变体：PPO-Penalty和PPO-Clip。
PPO-Penalty通过在目标函数中添加一个惩罚项来近似办理一个KL散度约束的更新问题，而PPO-Clip则不直策应用KL散度项，而是通过目标函数中的裁剪操作来限定新旧策略之间的差异。

PPO算法的实现步骤常日包括：

1）初始化策略网络参数。

2）通过与环境交互网络数据。

3）打算上风函数，用于评价动作的好坏。

4）利用裁剪的目标函数或惩罚项来更新策略网络参数。

5）重复以上步骤，直到策略收敛。

PPO算法的优点包括稳定性、适用性和可扩展性。
它适用于离散和连续动作空间的环境，并且可以通过并行化来提高演习效率。
PPO算法在游戏、机器人掌握、自动驾驶等领域都有广泛的运用。

4. 激活学习

激活学习是一种机器学习方法，其核心思想是选择最有代价的数据进行标注和学习，从而提高学习效率和模型性能。

常日用于以了局景：数据标注本钱高、数据集规模弘大、模型性能提升空间有限。

包括以下几个步骤：选择标注策略、选择标注数据、标注数据、演习模型、迭代优化。

在许多领域都有广泛运用，例如图像识别、自然措辞处理、推举系统。

参考资料：

Open AI官网：

1、https://openai.com/index/introducing-openai-o1-preview/

2、https://openai.com/index/learning-to-reason-with-llms/

3、https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed

OpenAI o1、核心成员官推：OpenAI 官推、CEO Sam Altman、总裁&联创Greg Brockman、COT 作者Jason Wei、模型核心成员Noam Brown、Hyung Won Chung、Ahmed El-Kishky、Ren HongYu、ShenJia Zhao

"大众年夜众号：外洋独角兽、 FudanNLP、机器之心、量子位、数字生命卡兹克、 AI Pioneer、 AI产品黄叔、人工智能与算法学习、AINLP、腾讯科技、 GitChat、AI科技大本营、智能呈现、PaperWeekly、硅谷科技评论、卜寒兮AI、zartbot、投资演习所、AI的潜意识、夕小瑶科技说

作者：AIPM1001 ，"大众号：AIPM1001

本文由 @AIPM1001 原创发布于大家都是产品经理。
未经作者容许，禁止转载

题图来自Unsplash，基于CC0协议

该文不雅观点仅代表作者本人，大家都是产品经理平台仅供应信息存储空间做事

每期AI知识网

全网最全 OpenAI o1 万字综述立异事理和团队

最全AI传授教化对象推荐教案副手到生文神器师长教师必备

论文ai辅写高风险怎么改这样降