机器之心编辑部
看看这个时期最伟大 AI 学者的研究脉络。
2024 年是天生式 AI 元年,才到 2 月,OpenAI 就用 Sora 把竞争推向了视频天生的新高度。
我们都还记得初见 Sora 作品时受到的震荡,感叹其他竞争对手想要遇上 OpenAI,至少也得须要个半年到一年的韶光。
Sora 发布后,其开拓团队自然也成为关注焦点,人们都想知道具有跨时期意义的 AI 技能是如何被开拓出来的。DiT 模型作者谢赛宁曾表示:「他们每天基本不睡觉高强度事情了一年」。
随着韶光推移,答案正被逐步揭晓。
以下是 OpenAI 技能报告中,Sora 的十三位作者:
个中的前两位,Tim Brooks、Bill Peebles,他们被认为是「Sora 之父」,担当 OpenAI Sora 项目研究主管,又十分年轻 —— 两人都是 2023 年刚刚从加州大学伯克利分校(UC Berkeley)博士毕业的。
在 Sora 技能公开后,他们曾共同进行宣讲,接管过很多媒体采访。
图片中间为 Tim Brooks,右侧为 Bill Peebles。
看两人的事情经历,他们分别是在 2023 年 1 月和 3 月加入 OpenAI 的。
我们知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 横空出世,由此掀起了大模型「颠覆天下」的浪潮。
他们追随传奇而来,如今转头望去,自己也成为了传奇。
作为 Sora 背后的紧张推动者,Tim Brooks、Bill Peebles 两人的博士毕业论文,也都因此 AI 视频天生为主题的。是时候从技能发展的角度,来研究一下 Sora 的来龙去脉了。
Tim Brooks
个人主页:https://www.timothybrooks.com/about/
Tim Brooks 博士毕业于 UC Berkeley 的「伯克利人工智能研究所」BAIR,导师为 Alyosha Efros。
在博士就读期间,他曾提出了 InstructPix2Pix,他还曾在谷歌从事为 Pixel 手机摄像头供应 AI 算法的事情,并在英伟达研究过视频天生模型。博士毕业后,Tim Brooks 加入 OpenAI,参与过 GPT-4、Sora 等多项研究。
2023 年,Tim Brooks 顺利毕业,博士论文靠近 100 页。论文题目为《Generative Models for Image and Long Video Synthesis 》。
论文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf
论文简介
在这篇博士论文中,Tim Brooks 提出了将图像和视频天生模型用于一样平常视觉内容创作的基本要素,紧张表示在三个方面:
首先,论文先容了长视频天生干系研究,并提出一种网络架构和演习范式,用于从视频中学习长程韶光模式,这是将视频天生从较短的剪辑推进到较长形式且连贯视频的关键寻衅。
接下来,论文先容了基于人体姿态天生场景图像的研究,展示了天生模型用来表示人与周围环境之间关系的能力,并强调了从大型且繁芜的日凡人类活动数据集中学习的主要性。
末了,论文先容了一种通过结合大型措辞模型和文本到图像模型的能力来创建监督演习数据,从而辅导天生模型遵照图像编辑指令的方法。这些事情共同提升了天生模型合成图像和长视频的能力。
Tim Brooks 表示,在他读博期间(2019-2023 年),图像和视频天生模型已经从小范围的演示发展成被广泛采取的创意工具。他非常光彩自己能在这个关键的时候攻读视觉天生模型的博士学位,他也对天生模型充满了信心。
接下来我们先容一下 Tim Brooks 博士论文每章节的紧张内容。
第 2 章专注于天生具有丰富动态和新内容的长视频。图 2.1 展示了模型能够天生丰富的运动和场景变革。
视频加载中...
来源:https://www.timothybrooks.com/tech/long-video-gan/
本章的紧张贡献是一个分层天生器架构,天生器概览图如下所示。
第 3 章先容了从反响日凡人类活动的繁芜现实天下数据中学习的研究。人、物体及其周围环境之间的相互浸染供应了有关天下的丰富信息来源。Tim Brooks 提出了一种通过条件天生模型学习这些关系的方法。早期的天生模型紧张集中在特定的内容种别上,例如人脸或特定的工具类。这项事情将天生模型扩展到用人类建模繁芜场景的领域。只要输入一个人的骨骼姿态,该模型就能够天生与该姿态兼容的合理场景。该模型既可以天生空场景,也可以天生输入姿态中有人类的场景。
本小节还设计了一个条件 GAN 来天生与人类姿态兼容的场景,网络架构基于 StyleGAN2 ,如图 3.3 所示。
这篇论文还强调了通过对日凡人类活动的大型视觉数据集进行演习,来理解视觉天下繁芜关系的能力。
第 4 章提出了一种新技能,教天生模型遵照人类编辑指令。图 4.1 显示了模型实行图像编辑指令的示例,图 4.2 显示了在文本会话中利用的仿照接口。
由于难以大规模获取基于指令的图像编辑演习数据,该研究提出了一种天生配对数据集的方法,该方法结合了多个在不同模态上预演习的大型模型:大型措辞模型(GPT-3 )和文本到图像模型(Stable Diffusion)。这两个模型捕获了关于措辞和图像的互补知识,可以将它们结合起来为跨两种模态的任务创建配对演习数据,而这两种模态中的任何一个都无法单独完成。
利用天生的配对数据,Tim Brooks 演习了一个条件扩散模型,该模型在给定输入图像和有关如何编辑文本指令的情形下,天生编辑后的图像。该模型可以直接在前向传播中实行图像编辑,不须要任何其他示例图像、输入 / 输出图像的完全描述或每个示例的微调。只管模型完备在合成示例上进行演习,但实在现了对任意真实图像和人类指令的零样本泛化。该模型可以按照人类指令实行各种编辑:更换工具、变动图像样式、变动设置、艺术媒介等。
末了,我们看一下论文中的一些结果。
与其他方法的比较结果如下:
总的来说,这篇博士论文确定了未来视觉天生模型的三个关键组成部分:随着韶光的推移建模长程模式,从繁芜的视觉数据中学习,以及遵照视觉天生指令。这三个要素对付开拓超级智能至关主要,由于它可以实行繁芜的视觉创造任务,帮助人类创造,并将人类的想象力带入生活。
William (Bill) Peebles
个人主页:https://www.wpeebles.com/
2023 年,William (Bill) Peebles 在伯克利人工智能研究中央得到了博士学位,导师是 Alyosha Efros,与 Tim Brooks 师出同门。
William (Bill) Peebles 本科毕业于麻省理工学院,曾在 FAIR、Adobe Research 和 NVIDIA 演习过。在攻读博士学位期间,他得到了美国国家科学基金会(NSF)研究生研究奖学金操持的支持。
William (Bill) Peebles 的博士论文以图像天生模型为主题,论文题目是《Generative Models of Images and Neural Networks》。
论文地址:https://www.proquest.com/openview/818cd87d905514d7d3706077d95d80b5/1?pq-origsite=gscholar&cbl=18750&diss=y
论文简介
大规模天生模型推动了人工智能的最新进展。这种范式使得人工智能的许多问题取得了打破,个中自然措辞处理(NLP)领域是最大的受益者。
给定一个新任务,预演习天生模型可以零样本地办理该任务,也可以在少量特定于任务的演习样本上进行有效的微调。
然而,在视觉、元学习等领域,天生式模型的进展却掉队了。
William (Bill) Peebles 的博士论文研究了演习改进的、可扩展的两种模态(图像和神经网络参数)的天生式模型的方法,并研究了如何利用预演习天生式模型来办理其他下贱任务。
首先,该论文证明保留了扩散模型图像天生扩展特性的扩散 transformer(DiT),优于之前主导该领域的卷积神经网络。
值得把稳的是,DiT 架构是在一篇题为《Scalable Diffusion Models with Transformers》的论文中被正式提出的,第一作者便是 William Peebles,其余一位论文作者是纽约大学的谢赛宁。
然后,William (Bill) Peebles 的博士论文提出了一种新型学习框架,旨在基于构建新数据源(神经网络检讨点)的天生式模型进行学习。
该论文创建了包含数十万次深度学习演习运行的数据集,并利用它来演习天生式模型。给定起始参数向量和目标丢失、缺点或褒奖,在此数据上演习的丢失条件扩散模型可以对实现所需指标的参数更新进行采样。
这种方法战胜了以前元学习算法的许多困难 —— 它可以优化不可微目标,并省去不稳定的展开优化方法。与 SGD 和 Adam 等基于梯度的迭代优化器无法从优化历史中学习不同,该论文提出的天生模型只需一次天生的参数更新即可通过随机初始化来优化神经网络。
该论文证明,预演习 GAN 天生器可用于创建无限数据流来演习网络,以办理密集视觉干系问题,而无需任何人工注释的监督。该论文表明,采取完备由 GAN 天生的数据进行演习的神经网络,性能优于之前在真实数据上演习的自监督和关键点监督方法。
该论文将所提框架运用于视觉和强化学习问题,并磋商了如何利用预演习图像级天生模型来处理视觉领域的下贱任务,而无需特定于任务的演习数据。
参考内容:
https://www.timothybrooks.com/about/
https://www.wpeebles.com/