刚刚,OpenAI 发布了o1推出后开拓团队完全采访(之前只有几分钟片段),揭秘了 o1 模型的出身过程。采访中,OpenAI o1 的研究职员们分享了他们的心途经程,以及那些让他们 “Aha” 的灵光乍现的瞬间
o1:会“思考”的 AI 模型
o1 最大的特点便是它会“思考”!
OpenAI 的研究职员们希望 AI 模型不仅能够快速给出答案,还能像人类一样,在回答问题之前前辈行推理,思考韶光越长,答案越准确
漫长的探索之路:从强化学习到监督学习
OpenAI 团队很早就开始探索如何让 AI 模型具备推理能力。他们最初的灵感来自于 AlphaGo,并考试测验将强化学习运用到更通用的领域
“在 OpenAI 的早期,我们受到了 AlphaGo 结果和深度强化学习潜力的启示,因此我们一贯在深入研究它,并且我们看到了在数据和机器人技能方面的巨大扩展,我们一贯在思考,如何才能在通用领域进行强化学习,从而得到一个非常强大的人工智能。”
后来,他们看到了 GPT 系列模型在监督学习方面的惊人成果,于是开始思考如何将强化学习和监督学习这两种范式结合起来
“从那往后,我们一贯在思考如何将这两种不同的范式结合起来。”
“Aha” 时候:那些灵光乍现的瞬间“私密思维链” 的出身: 当 OpenAI 团队第一次看到模型能够天生连贯的“思维链”时,他们意识到 这是一种与以往完备不同的东西,并预感到 这将带来重大的改变。
强化学习的打破: 研究职员创造,如果用强化学习来演习模型天生和完善自己的“思维链”,效果乃至比人类编写的“思维链”还要好!
这让他们意识到,强化学习是扩展 AI 推理能力的关键!
AI 的“自我反思”: 在早期测试中,研究职员创造 o1 模型开始质疑自己的缺点,并进行反思。这让他们意识到,o1 模型已经具备了某种程度的“自我意识”, 这将带来全新的可能性!
中文完全版梳理
OpenAI o1 出身记:一群天才程序员的血汗与泪,还有那些灵光乍现的瞬间!构建 OpenAI o1(扩展版)
大家好,我是 Bob McGrew,我是 OpenAI 研究团队的卖力人。我们刚刚发布了我们新系列模型 o1 和 o1 mini 的预览版,我们对此非常愉快,并且本日有全体团队来向大家先容这些模型。
什么是 o1?我们启动了一系列新模型,命名为 o1。这是为了强调与之前的模型(如 GPT-4)比较,当你利用 o1 时,可能会有不同的感想熏染。正如其他人稍后会阐明的那样,o1 是一个推理模型,它会在回答你的问题之提高行更多思考。我们发布了两个模型:o1 预览版,它展示了即将推出的 o1 系列;以及 o1 mini,这是一个更小、更快的模型,利用与 o1 相似的演习框架。希望大家喜好我们新的命名办法 o1
推理到底是什么?推理的一种办法是,有时我们提出问题时,须要立即得到答案,由于这些问题比较大略。比如,如果你问“意大利的都城是哪里?”,你知道答案是罗马,不须要多想。但是,如果你要办理一个繁芜的难题,或者想写一份商业操持,或者写一部小说,你可能会希望多花点韶光去思考,思考得越久,结果每每会越好。以是推理便是把思考韶光转化为更好结果的能力,无论任务是什么
你们花了多永劫光在这个项目上?OpenAI 的早期阶段,我们受到 AlphaGo 结果的启示,看到深度强化学习的潜力,以是我们在这方面投入了大量研究,并在 Dota 和机器人技能领域取得了巨大进展。我们开始思考,如何在通用领域运用强化学习,以实现非常强大的人工智能。然后,我们看到了 GPT 模型在监督学习方面的惊人成果,自那往后我们一贯在思考如何将这两种不同的范式结合在一起。
这个项目的确切开始韶光很难界定,但我们与 Yakob 和 Shimon 进行了早期的探索,也有与 Lukash 和 Ilya 的早期互助。当然,Jerry 的加入后,他推动了这个大型项目的进展,这也是一个主要的时候。以是,这个项目已经持续了很永劫光,但研究中最酷的地方在于那个“啊哈”时候,当某些惊人的事情发生时,统统溘然变得清晰了
你们有没有过‘啊哈’的时候?我们演习了 GPT-2、GPT-3 和 GPT-4,但第一次有这种觉得是当我们看到模型时,大家都感叹“哇,这个模型真的很棒”,并开始真正谈论它的表现。我记得在演习过程中,我们投入了更多打算资源,并第一次天生了连贯的思维链,我们心想“哇,这看起来与之前真的不一样”。对我来说,那是一个关键时候
与此干系的另一个创造是,当我们思考如何演习推理模型时,自然而然想到的一件事是可以让人类写下他们的思维过程,然后用它来演习模型。然而,当我们利用强化学习让模型天生并改进自己的思维链时,创造它做得比人类编写思维链还要好,这是我的一个“啊哈”时候,证明我们可以通过这种办法真正扩展模型的推理能力。
一个早期的 o1 模型展示了这种推理能力。我们永劫光致力于让模型在办理数学问题上表现得更好。我们为此投入了大量精力,考试测验了各种不同的方法,但每次看到模型的输出时,总是感到挫败,由于模型从不质疑它的缺点。然而,当我们演习并开始与 o1 模型对话时,看到它在数学测试中的得分提高了。通过不雅观察它的推理过程,你会创造它开始质疑自己的结论,并且表现出真正有趣的反思能力。那一刻我意识到,我们确实创造了一些不同的东西
当你们读这些思维过程时,觉得如何?觉得像是在不雅观察一个人类,还是像在看一个机器?这更像是一种精神体验。你可以与模型共鸣,看到它犯了很多人类常犯的缺点,或者看到它质疑一些常规的假设。这是一种精神体验,但同时也奇怪地带有人类的行为
我们还不雅观察到另一个征象,在模型被限定了思考韶光的情形下,它每每会在快到韶光截止点时迅速得出结论,仿佛意识到“我必须现在给出答案了”。这让我们想起了年轻时参加数学竞赛时的经历,这也是我们对 AI 产生兴趣的缘故原由之一。以是,当我们看到模型在解题时,险些跟随我曾经利用的步骤,感到非常愉快
这些模型正在推动工程和科学的进步。它们在办理那些对我们来说很难的难题时表现得非常出色,乃至那些对专家来说也很棘手的问题,这可能会推动科学的打破
你们碰着过什么寻衅?演习大型模型实质上是非常困难的事情,有成千上万的事情可能出错,实际上每次演习中至少有几百件事情确实出错了。险些每个人都投入了大量心血来办理这些问题,并让模型保持学习和改进。成功的道路非常狭窄,而失落败的办法却很多。就像发射火箭一样,稍有偏差就可能偏离目标。这是我们的事情
你们如何测试这些模型?有趣的是,我们会常常在社交媒体上看到有人说“大措辞模型无法做某些事情”,然后我们会把这些问题输入我们的模型进行测试,验证它是否能做到
如何测试 o1 mini?
o1 mini 的动机是为了让更广泛的用户以更低的本钱利用 o1 系列模型。我们设计了 o1 mini,它展示了全体 o1 演习框架的最小实现。它在推理能力上非常出色,只管可能不知道某些名人信息,但在科学和技能领域,它的表现险些可以与 o1 相媲美,同时大幅降落了本钱和延迟。虽然它的知识面相对较窄,但我们正在不断改进
你们是如何利用 o1 的?用 o1 来进行编程,我们的事情大部分涉及编程。以是更多地关注问题定义,而不是直接编写代码。通过利用测试驱动开拓(TDD),专注于编写单元测试,来定义精确的代码行为,然后交给 o1 实现功能,这样我就能把精力集中在高层次的问题办理上
调试也是一个主要的领域。当我碰着缺点时,我可以把它交给 o1,它会供应解答,乃至如果没有直接办理问题,也会提出故意义的反思问题
我们越来越多地用 o1 来学习,当向它讯问各种繁芜的技能问题时,创造它产生的幻觉更少,阐明得更好。
我们也喜好把 o1 作为一个头脑风暴的伙伴,无论是办理机器学习问题,还是撰写博客文章。我可以向它咨询文章构造、基准的优缺陷,乃至是写作风格。由于它在回答之前会进行思考,能更好地连接想法,并且它还能修正和批驳候选方案
我们创造当你有一些无构造的想法时,它是一个很好的伙伴,可以帮你将这些想法串联起来,找出遗漏的部分。通过阅读它的思维过程,终极可以得到更好的结果
你们的研究动机是什么?我以为在这个天下上,存在这样一些事物,它们能够表现出智能和推理,而且比我们想象的要小得多,并且能够以不同的办法实现这一点,这让我感到非常着迷。好的事物每每须要韶光,而我们的模型常日回答得太快。终极,我希望能够有模型能够进行永劫光的研究,持续数月乃至数年。而我以为这次的打破是朝着这个方向迈出的第一步
你们以为 AI 研究的任务是什么?我认为,AI 研究职员的事情便是找到将更多打算能力运用于硬件的方法,硬件开拓职员的表现非常出色,导致打算本钱持续指数级低落。我们没有太多韶光去探求其他办法来增加打算能力,这对我来说是一种越来越大的压力。然而,这种新的范式确实供应了一个办理方案,可以在未来很长一段韶光内缓解这种压力
你们对这全体项目还有什么意见?每个模型都有它独特的个性,像是手工艺品一样。它们在不同任务上表现得略有不同,可能在某些任务上表现更好,在另一些任务上表现稍差。因此,每个模型都有自己独特的特点,带有一种美感