量子位 | "大众年夜众号 QbitAI

笑去世,原来o1也像人类一样喜好赶ddl(手动狗头)。

这是在o1团队的“大型见面会”上,OpenAI创始成员Wojciech Zaremba揭开的o1“黑历史”。

包括Zaremba在内的18名团队成员,在首席研究官Bob McGrew的带领之下围坐一团。

o1研发团队首次集体访谈教AI数r用了一年半

o1核心贡献者Hyung Won Chung、Noam Brown等关键人物,也都在此列。

随着成员们的踊跃发言,o1的发展进程也逐渐被揭开——受AlphaGo和早期GPT模型的启示,想到了将两张背后的范式结合。

后来,团队演习出了第一个可以天生连贯思维链的模型,标志着研究方向开始逐渐明朗和聚焦……

在充满松弛感的气氛当中,众人还分享了有关o1研发的许多趣事:

在OpenAI内部,也喜好用“数r”来测试大模型能力为理解决“数r”的问题,OpenAI花费了一年半技能职员会把代码报错信息直接丢给o1去debugo1曾经说过,生命的意义是“42”,还试图用代数来定义“love”

同时在研究过程中他们还创造,o1不仅比人类更长于创造新的CoT推理步骤,并且还呈现出了自我批评能力。

有网友夸奖说,这的确是一个出色的团队,非常喜好听他们的发言,并且模型的推理能力也确实比以前强。

量子位整理了这次访谈的实录,下面就一起来看~

o1是什么?推理又是啥?

Bob McGrew:我是OpenAI研究团队的卖力人,我们刚刚发布了o1和o1-mini模型。

对此我们感到非常激动,本日我们的全体团队聚拢在此,来先容这两个模型。

★什么是o1?

Bob McGrew:以是,(第一个问题),到底什么是o1?

Hyung Won Chung:我们开启了新的模型系列,并且起了一个新的名字叫o1。

这是为了强调,与GPT-4o等之前的模型比较,o1有很大的不同,稍后会有人详细阐明。

o1是一个推理模式,以是它在回答问题之前思考的会更多。

我们发布了两个模型——(满血)o1的o1-preview,以及更小、更快的o1-mini,它和(满血)o1采取的是相同的演习框架。

我们希望大家喜好我们的新命名办法。

★推理又是什么?

Bob McGrew:那么推理又是什么意思?

Giambattista Parascandolo:对付大略问题来说,我们希望提问之后急速就能得到答案。

比如你问意大利的都城在哪,你不用思考很多也知道答案是罗马。

但如果你想知道一个繁芜问题的答案,或者写出一份好的商业操持,或者写一部小说,你可能就要思考一段韶光了,并且你思考的越多,末了得到结果也就越好。

而推理便是把思考韶光化为更好的成果的能力。

研发过程的那些事

★你们在o1上事情多永劫光了?

Bob McGrew:你们在o1上事情多永劫光了?

Jakub Pachocki:在OpenAI早期,我们深受AlphaGo的成绩的启示,看到了深度强化学习的潜力,因此我们对其进行了深入研究,并看到了数据和机器人技能的大规模扩展。

我们也开始思考如何才能在通用领域进行强化学习,从而实现非常强大的人工智能。

然后我们看到了GPT范式中扩展和监督学习带来的惊人成果,从那时起,我们就一贯在思考如何将这两种不同的范式合二为一。

Mark Chen:项目开始的确切韶光很难确定,但已经与Yaku和Shimon进行了早期探索,与Lukash、Ilya进行了早期探索。

一个主要的时候是Jerry的加入,他推动了这个大型项目的进展。

★研究过程中的“Aha moment”

Bob McGrew:我认为在研究过程中最精彩的便是哪些“Aha moment”,你们的事情当中有哪些高光时候呢?

Jerry Tworek:我们演习了 GPT-2、GPT-3 和 GPT-4,每一次都成为了媒体上的热点。

但第一次有这种觉得是当模型出来的时候,所有人都夸奖很棒。

对付我而言,这样的时候是当我们投入了更多打算资源,并第一次天生了连贯的思维链时。

当时我们心想,这和以前的模型看起来真的很不一样。

Trapit Bansal:当我们考虑演习一个推理模型时,我立即想到的一件事是,用人类的思维过程进行演习。

但我创造,利用RL演习模型来天生己的思维链,结果可以做得比人类写的思维链更好。

在我看来这便是一个“Aha moment”,它见告我们可以通过这种演习办法,让扩展模型的推理能力得到扩展。

Hunter Lightman:我们花了很长的韶光,一贯考试测验让模型更好地办理数学问题。

为此我们付出了很多努力,我们想出了很多不同的方法,但有一件事让我一贯很沮丧,

每次我读到这些模型的输出时,创造模型彷佛永久不会质疑自己哪里出了问题,什么时候犯了缺点。

但当我们演习早期的o1模型并与之对话时,创造它在数学测试中得分更高了。

通过不雅观察它的推理办法,我们创造它开始质疑自己,并进行了非常有趣的反思。

那一刻我觉得哇,我们创造了一些不同的东西。

★觉得模型像人还是像机器?

Bob McGrew:你们在看模型的思考过程时,以为他们是更像真人还是更像机器人?

Liam Fedus:这更像是一种“精神体验”。

你可以看到模型也会犯很多人类常常犯的缺点,又能看到它对一些知识提出质疑。

很奇怪,模型会带有人类的行为。

Wojciech Zaremba:在模型被设定了ddl的情形下,每每会在快due的时候迅速得出结论。

彷佛大模型也知道自己必须急速给出答案。

Karl Cobbe:我年轻的时候花了很多韶光参加数学竞赛,而我进入人工智能领域的缘故原由,便是试图实现这个过程的自动化。

以是对我来说,这是一个非常主要的迁移转变点,由于我看到这个模型实际上能够遵照我办理这些问题时利用的步骤

虽然这不是完备相同的思路,但非常非常可靠。

Wojciech Zaremba:可以相信,这些模型正在成为真正推动工程和科学发展的成分。

如果它们彷佛能办理纵然专家也难以办理的问题,那么将能够推动科学进步。

★研发过程中的困难

Bob McGrew:我们谈了很多令人愉快的时候,那么在事情过程中又碰着了什么障碍?

Jerry Tworek:演习大型模型从根本上来说便是一件非常非常困难的事情。

有成千上万的事情可能出错,而且在每个领域都有事情确实出错了。

以是险些这里的每个人都像你们知道的一样,在演习这些事情上付出了很多心血和汗水,并想出了如何让模型连续学习和进步的方法。

实际上,成功的道路非常狭窄,而失落败的办法却有很多。

Wojciech Zaremba:就像发射火箭一样,如果你偏离了一个角度,你就无法到达目的地,而这便是我们的事情。

Ilge Akkaya:这个模型非常好,常日比人类好几倍,能达到博士的水平。

但是这有时是一个寻衅,由于我们必须常常去验证模型没有偏离轨道。

但我们已经饱和了所有行业级的评估,我们不知道下一步该研究什么。

Mark Chen:这也是一种造诣感,就像每次碰着难题一样。

这就像这个团队要战胜的另一个障碍,我真的很高兴我们战胜了所有这些小障碍。

OpenAI内部这样用o1

★如何测试模型表现

Bob McGrew:你们测试模型的方法有哪些,有没有什么喜好的问题,并创造模型在这些问题上变得越来越好?

Shengjia Zhao:Strawberry里有几个r?

Wojciech Zaremba:不管是什么缘故原由,ChatGPT无法可靠地办理这些问题。

我们花了一年半的韶光,现在我们可以打算出strawberry中的“r”的数量。

Hunter Lightman:我有一个习气,我想其他人也有。

每当上推特时,都会看到一些帖子说大模型无法办理这类问题。

我就把它复制粘贴进去,然后创造我们的模型可以做到。

★内部o1利用方法

Bob McGrew:为了让人们理解他们可以利用这个模型做什么,我很想听听你们利用o1的一些方法。

Hyung Won Chung:我利用o1的办法紧张是用来写代码。

我的很多事情都是关于代码的,我越来越关注问题定义,并利用TDD(测试驱动开拓)。

因此,我不再编写实现功能的代码,而是专注于编写单元测试。

由于o1可以实现东西,以是我可以专注于主要的、须要办理的高等问题,这真的是一种转移我把稳力的主要办法。

另一个领域是debug,现在当我收到一些缺点时,我只需通报给o1,有时它会立即办理。

纵然没有,它至少会给出一些更好的问题,供应一些更好地思考这个问题的方法。

以是对我来说,这是一个非常主要的事情变革,我希望这也能帮助其他人。

★o1-mini的出身过程

Bob McGrew:o1-mini的故事是若何的?它是如何出身的?

Hongyu Ren:我们想把o1系列带给更多人,它有更低的本钱,以是做了o1 mini。
它是o1框架的最小演示,是“推理专家”。
它不一定能知道你喜好的名人的生日,但是它能有效地推理,并且很智能。

实际上它真的很聪明,比我们之前最好的模型都要聪明很多,险些与o1相称,但是本钱和时延比它低很多。

不过也确实有局限性,可能不知道很多外部天下知识。
这与技能本身无关,我们试图让它达到和此前最好模型最小版本差不多的水平,并且仍旧在努力进一步改进它。

用户考试测验了o1 mini会很愉快,由于它推理和思考的速率真的很快。

★是什么勉励你做这些研究?

Łukasz Kaiser:我只是以为在这个天下上,有一些可以做推理、有智能的东西,比想象中小很多。
它们可以以不同办法做到这一点,这就非常迷人了。

Giambattista Parascandolo:我以为这是向模型范式转变的第一步。
以前花很永劫光才能办理的问题,现在做到了分钟级,这只是漫远程径的第一步。
我们希望能在几个月或几年后,迈出第二步。

Wojciech Zaremba:我以为这很故意义,我们可以对天下产生一些本色性的积极影响。

而且这很有趣,我喜好对着电脑“说话”,喜好在集群上开始一项事情,也非常喜好互助。

Jerry Tworek:我认为科技可以改进人类生活,我喜好我们的模型能为人事情,帮助我们办理日常问题,授予它推理能力让它干事。

Liam Fedus:我认为这一范式办理了一些模型无法办理的问题,以是不仅仅是回答变好一点,而是通过方案、通过缺点纠正,它解锁了全新能力,在世界上创造新知识的能力,比如科学创造,我认为这是最令人愉快的部分。

短韶光内,它的自身进化会越来越快,这真的很棒。

Mark Chen:我们团队中一些成员有数学等方面的背景,这驱动我们自己想去创造一个最好的系统。

Hyung Won Chung:我认为推理比人们想象中的还要强大。
当人类想要完成某项任务时,最基本的方法便是推理,你会碰着困难,你必须要找到办理方法。

我以为AI研究员的事情彷佛是要找到一种方法来投入更多的打算。
硬件方面的研究者在这方面做的很好,很长一段韶光硬件本钱都在指数级低落。

须要的打算量越来越多,就彷佛肩膀上的重量越来越重。
这个新模式找到了一种方法,来帮我们卸下一些重量。

★在这项研究中,你们还不雅观察到什么吗?

Jason Wei:我们创造一个有趣的征象是,每个模型都有自己的“怪癖”。

演习的每个模型在每个任务上的表现都不完备相同。
以是模型可能有些任务表现得更好,有些表现得更差。
每个模型都有它自己的个性和优点。

原视频地址:https://www.youtube.com/watch?v=tEzs3VHyBDM

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态