编辑丨岑峰
“最开始我就知道谷歌相称有希望,谷歌能发展到现在的规模不过是迎刃而解。”
这位谷歌首席科学家在谷歌度过了近乎一半的人生,对谷歌的喜好不减反增,到现在还依然坚守着谷歌最初的愿景并为此奋斗:
Jeff Dean 还记得刚加入谷歌的时候,每到周二的流量高峰期就开始担心系统会不会崩溃,还好后来及时增加了设备,对代码和搜索功能做了更多优化,谷歌搜索这才步入了正轨。
后来吴恩达在谷歌担当顾问,Jeff Dean 和他商定了大型神经网络的研究目标,终极匆匆成了 Google Brain 团队的成立。
2011年,伴随着质疑和不信赖,Google Brain 终于成功演习出比当时其他模型大 50 到 100 倍的神经网络。
而在同一期间的大洋彼岸,DeepMind 的研究才刚刚开始。
Jeff Dean 想做的一贯都是高质量、大规模的多模态模型。当时的 DeepMind 和 Google Brain 有着类似的研究目标,只是选择了强化学习和模型扩展两个不同的方向。
收购DeepMind后,Jeff Dean 推动了两大团队的领悟,Google DeepMind 应运而生。
强强联合之下,Google DeepMind 交出了一份令人满意的答卷,Gemini。
Gemini 的上风不止在于多模态,更在于“化繁为简”的思路。
受益于底层的Transformer架构,Gemini 能够并行处理大量数据,比较传统递归模型,提升了 10 到 100 倍。更主要的是,Gemini 能把不同类型的数据通过抽象转换为相同的高维表示,把表面意思及其以外的联合意义和表示整合起来。
举个例子,Gemini 不仅能识别“牛”这个词语,还能发散到和牛有关的语音、图片等等其他内容,反过来输入这些干系的内容也能触发 Gemini 对“牛”的多层次理解。
对用户来说,统统都变得大略、直不雅观。
无需切换工具或者输入形式,用户就能通过笔墨、语音、图片等办法与系统互动。
而系统也会自动整合各种输入办法,天生最直不雅观、最易于解读的结果。文本可以转化为图像,图像也可以转化为语音,笔墨与图像的领悟也能自动实现。
对开拓团队来说,这一技能的实现非常繁芜,但Gemini 依然成功打破了这些寻衅。
然而,Jeff Dean 的年夜志远不止于此。他现在致力于开拓更深入人们生活的人工智能工具,涵盖从日常助理到医疗、AI教诲等多个领域。
多模态模型的前景和谷歌一样充满了可能。Jeff Dean 笃信,从过去到未来,这一领域将持续表演出巨大的潜力和希望。
前几天,Jeff Dean 做客 DeepMind 播客,讲述了他和谷歌的这段过去、DeepMind与Gemini背后的故事,以及自己对多模态模型的探索和理解。
完全播客视频可以点以下链接不雅观看:
https://www.youtube.com/watch?v=lH74gNeryhQ
AI科技评论摘取了部分播客内容,做了不改原意的精编处理:
Hannah Fry:你在谷歌事情了 25 年,早期的谷歌是什么样的?90 年代刚加入的时候,是不是大家的条记本上贴满了贴纸,穿着人字拖在编程?
Jeff Dean:那时没有条记本,我们用的是大 CRT 显示器,占了很多桌面空间。我那时的桌子实在是一扇门架在两只马凳上,你可以站在桌下,用背撑起来把桌子调高。
我刚开始事情时,我们的办公室很小,大概只有这个房间的三倍大。
Hannah Fry:全体谷歌?
Jeff Dean:全体谷歌。那时,我们在帕洛阿尔托大学大道上的一个小办公室里,恰好在现在的T-Mobile手机店上面。那时候真的非常激动,只管我们是个小公司,但看到越来越多人利用我们的高质量搜索做事真的很愉快。流量每天和每周都在不断增长。
我们一贯在努力避免每周二中午的流量高峰时系统崩溃。这须要我们迅速增加打算机资源,优化代码提高速率,并开拓新的功能,让相同的硬件能够做事更多用户。
Hannah Fry:有没有哪个时候让你们意识到——这个公司真的会变得很大?
Jeff Dean:我想,从我刚加入公司的时候,你就能看出来流量增长非常快。
我们以为,只要专注于供应高质量的搜索结果,快速知足用户需求——我们实在希望用户能尽快离开我们的网站,找到他们须要的信息——这是一个很成功的想法。
用户彷佛也喜好我们的做事,以是从最开始就看起来相称有希望。
Hannah Fry:从“相称有希望”到末了的发展规模之间差距不小。你感到惊异吗?
Jeff Dean:确实,我们的领域扩展确实难以预见,比如自动驾驶汽车。我们的产品组合逐步拓宽,从最初的搜索引擎到现在的各种产品,例如通过Gmail帮助用户管理邮件。
这种扩展是自然的,由于它们办理了实际问题,让我们不仅仅拥有一个产品,而是拥有了用户日常利用的多种产品。
Hannah Fry:回顾这么多年的发展,你以为谷歌始终是一个搜索公司,还是实际上它是一个 AI 公司,只是伪装是个搜索公司?
Jeff Dean:我认为公司办理的许多问题实际上都依赖于 AI。在这25年的进程中,我们逐步占领了一些繁芜的AI问题,并不断取得进展。
虽然谷歌一开始专注于搜索,但我们不断将这些新的 AI 技能运用到搜索和其他产品中。因此,可以说我们一贯在利用 AI 推动公司的发展。
Hannah Fry:你认为谷歌未来会一贯是一个搜索公司吗?或者说,它现在是否仍旧是一个搜索公司?它正在发生改变吗?
Jeff Dean:我非常喜好谷歌的一点是,即便 25 年过去了,我们的义务依然非常故意义——“组织环球信息并使其普遍可用和有用”。
我认为,Gemini 帮助我们在理解各种信息方面迈出了主要一步——包括文本数据和软件代码(它也是一种文本,只是更繁芜)。我们不仅能阅读文本,还能通过视觉和听觉吸收信息。
我们的目标是让模型能够处理各种输入形式,并天生相应的输出,例如文本、音频、对话、图像或图表。
我们真正想创造的是一个能够处理所有这些模式并根据须要天生输出的模型。
Hannah Fry:你还记得你第一次打仗神经网络的情景吗?
Jeff Dean:是的,当然。神经网络有着一段有趣的历史。
AI 实在是一个非常古老的学科,AI 的早期阶段是在研究如何定义事物运作的规则。那是在20世纪 50、60、70 年代旁边。
神经网络大约在 70 年代涌现,在 80 年代末和 90 年代初掀起了一阵热潮。
实际上,我在 1990 年是明尼苏达大学的本科生,当时我在上并行处理课程,这个课程磋商的是如何将一个问题分解成可以在不同打算机上并行处理的部分,让这些打算机协同事情来办理一个问题。
Hannah Fry:我猜那时候的打算能力还不如现在那么强大,你们是怎么让打算机协同事情的?
Jeff Dean:神经网络是一种分外的机器学习方法,它通过仿照人脑神经元的事情事理来进行学习。每个人工神经元与下层的其他神经元相连接,剖析吸收到的旗子暗记,然后决定是否将旗子暗记通报到更高层次。
神经网络由多个层次的人工神经元组成,高层神经元通过剖析下层神经元的旗子暗记进行学习。
例如,在图像识别任务中,最底层的神经元可能学习到根本特色,比如颜色斑点或边缘;下一层则可能识别出具有特定颜色边框的形状;更高层的神经元可能识别出这些形状组成的详细物体,如鼻子或耳朵。
通过这种逐层的抽象学习,神经网络能够发展出非常强大的模式识别能力。这也是1985至1990年间人们对神经网络充满愉快的缘故原由。
Hannah Fry:不过我们说的是非常非常小的网络,对吧?
Jeff Dean:是的,非常小的网络。以是它们无法识别出人脸或汽车这样的东西,只能识别一些人工天生的大略模式。
Hannah Fry:就像一个网格,可能能识别出一个十字形之类的东西。
Jeff Dean:或者手写的数字,比如这是一个 7 还是 8。
那时候的确算是很了不起了。但它们的能力仅限于办理这种问题,而那些基于逻辑规则的系统,比如如何定义一个“7”,其实在处理各种缭乱手写体时表现得并不太好。
以是我在听了两堂关于神经网络的课后以为很有兴趣,决定把我的毕业论文主题定为神经网络的并行演习。
我认为只须要更多的打算资源就能有所打破。于是我想,何不利用系里那台 32 处理器的机器来演习更大的神经网络?这便是我接下来的几个月所做的事情。
Hannah Fry:结果成功了吗?
Jeff Dean:是的,成功了。当时我以为 32 个处理器已经足够让神经网络运行顺畅,结果证明我还是错了。实在我们须要大约一百万倍的打算能力,才能真正让它们表现出色。
幸运的是,摩尔定律的进步、处理器速率的提升,以及各种打算设备的发展,终极使我们拥有了强大的一百万倍打算能力的系统。这让我重新对神经网络产生兴趣。
当时 Andrew Ng(吴恩达)每周都有一天在 Google 做顾问。
有一次我在 Google 的厨房碰到他,问他在做什么。他说:“还在摸索,不过我的学生在神经网络方面取得了不错的进展。”于是我发起:“为什么不演习一些非常大的神经网络呢?”
这便是我们在 Google 开始神经网络研究的出发点,后来我们成立了Google Brain 团队,专门研究如何利用 Google 的打算资源演习大型神经网络。
我们开拓了软件,把神经网络分解为多个部分,由不同打算机处理,还让它们相互沟通,在2000台打算机上一起演习一个神经网络。这使我们演习出比当时其他模型大 50 到 100 倍的网络。这是2012年初,图像识别取得重大打破之前的事。
当时我们做的还是把打算机连接起来,就像我本科论文一样。这次不同的是规模更大,而这次真的见效了,由于打算机更快了,也用了更多的机器。
Hannah Fry:不过在 2011 年的时候,这觉得像是一场赌注吗?
Jeff Dean:当然是了。我们当时为演习这些神经网络而搭建的系统,并考试测验各种分解方法,我给它取名为 DistBelief(直译为“分配信念”)。
部分缘故原由是很多人不相信它真的能成功,另一个缘故原由是它是一个分布式系统,可以构建这些网络——我们想演习的不仅仅是神经网络,还有深度信念网络(Deep Belief Networks)。以是就叫 DistBelief 了。
Jeff Dean:是的。Geoffrey Hinton,这位著名的机器学习研究员,2011年夏天曾在 Google 事情过。那时我们还不知道该给他安排什么职位,末了把他归为演习生,这挺有趣的。后来他和我一起事情,之后我们得知了 DeepMind 的存在。
我想 Geoffrey 对这家公司的起源有所理解,也有其他人见告我们,“英国有一家公司在做些故意思的事情。”当时他们大概只有四五十人。于是我们决定去看看,把它视作潜在的收购工具。
那时我在加州,Geoffrey 在多伦多,是那里的教授。他背有问题,不能乘坐普通航班,由于他无法坐下,只能站着或躺着。而航班起飞时不能站着,以是我们安排了私人飞机上的医疗床。
我们从加州飞往多伦多接他,然后一起飞到英国,降落在某个偏远机场。接着我们坐上一辆大面包车,直奔 DeepMind 的办公室,该当在 Russell Square(伦敦罗素广场)附近。
前一晚的翱翔让我们很累,接下来便是来自 DeepMind 团队的 13 场连续 20 分钟的演讲,先容他们的各种项目。我们看了他们在 Atari 游戏上的一些事情,紧张是用强化学习玩旧版 Atari 2600 游戏,比如《Breakout》和《Pong》,这都非常有趣。
Hannah Fry:你们当时还没有做强化学习的事情?
Jeff Dean:对,那时我们紧张专注于大规模的监督学习和无监督学习。
Hannah Fry:强化学习更多是通过褒奖来勉励的,对吧?
Jeff Dean:是的,我认为这些技能都很有用,常日将它们结合起来利用效果会更好。
强化学习的核心在于代理在环境中操作,每一步都有多个选择。例如,在围棋中,你可以在多个位置放置棋子;在 Atari 游戏中,你可以移动操控杆或按按钮。褒奖每每是延迟的,在围棋中,你直到棋局结束才能知道每一步是否精确。
强化学习的有趣之处在于它能够处理永劫光的动作序列,并根据这些动作的结果来给予褒奖或惩罚。褒奖或惩罚的程度与这些动作的预期结果干系。
如果你取得了胜利,你会以为这个决定是对的,从而增加对这一策略的信心;如果失落败了,你可能会减少对这一策略的信心。强化学习特殊适用于那些结果须要较永劫光才能显现的情形。
强化学习特殊适用于那些立即无法判断好坏的情形。
监督学习指的是你有一组输入数据和对应的真实输出。一个经典的例子是图像分类中,每张图像都有一个标签,如“汽车”、“鸵鸟”或“石榴”。
Hannah Fry:当你们决定进行收购时,Demis 是否感到紧张?
Jeff Dean:我不愿定他是否紧张。我紧张关注的是代码的质量。我哀求查看一些实际代码,以理解代码标准和注释情形。Demis 对此有些犹豫。
我说只须要一些小片段,就能让我理解代码的实际情形。于是,我进入了一间工程师的办公室,我们坐下来聊了 10 分钟。
我问,这段代码做了什么?那个东西呢?那是什么浸染?能给我看看它的实现吗?我出来后对代码质量很满意。
Hannah Fry:在这些演示中,你的印象如何?
Jeff Dean:我以为他们的事情非常有趣,尤其是在强化学习方面。
我们当时专注于模型扩展,演习的模型比 DeepMind 处理的要大得多。他们在用强化学习办理游戏问题,这为强化学习供应了一个很好的运用处景。
结合强化学习和我们的大规模扩展事情,看起来会是一个很有出息的方向。
Hannah Fry:这就像从两个方向办理问题——一个是小规模的强化学习,如玩具模型;另一个是大规模的理解。将这两者结合起来,效果非常强大。
Jeff Dean:是的,确实如此。这也是我们去年决定合并 DeepMind、Google Brain 和其他 Google 研究部门的紧张缘故原由。我们决定将这些单元结合起来,形成 Google DeepMind。
Gemini 的观点实际上早于合并的想法,但真正的目的是让我们在这些问题上共同努力。
由于我们都致力于演习高质量、大规模、多模态的模型,将想法和打算资源分开是不合理的。
因此,我们决定将所有资源和职员整合,组建一个联合团队来办理这个问题。
Hannah Fry:为什么叫 Gemini?
Jeff Dean:实际上是我命名的。Gemini 代表双胞胎,这个名字很好地表示了 DeepMind 和Google Brain 的结合,象征着两个团队共同致力于一个年夜志勃勃的多模态项目。
这个名字还有多个含义,比如它有点像是年夜志勃勃的太空操持的前奏,这也是我选择这个名字的缘故原由之一。
Hannah Fry:我想要谈谈多模态的内容。在此之前,可以见告我们一点关于 Transformer 的事情以及它的变革性影响吗?
Jeff Dean:当然可以。实际上,处理措辞和许多其他领域的问题每每涉及序列问题。
例如,Gmail 的自动完成功能根据你输入的内容来预测下一个可能的词语,这类似于大型措辞模型的演习过程。这样的模型被演习来逐字或逐词地预测文本的下一部分,就像是高等的自动补全功能。
这种序列预测方法在许多领域都很有用。在措辞翻译中,模型可以根据输入的英文句子预测相应的法文句子。在医疗领域,它能够处理病人的症状和检测结果,预测可能的诊断结果。
此外,这种方法也适用于其他数据类型,如 DNA 序列。通过隐蔽序列中的部分信息,模型被迫预测接下来会发生什么。这种方法不仅适用于措辞翻译和医疗诊断,还可以扩展到其他领域。
在 Transformer 架构涌现之前,递归模型才是成功的模型,它们依赖内部状态来处理序列数据。处理每个词时,模型会更新一次内部状态,然后再处理下一个词。这种方法须要对每个词进行逐步处理,导致运行速率较慢,由于每一步都依赖于前一步,存在序列依赖问题。
为了提高效率,Google Research 的研究职员提出了 Transformer 架构。与其逐词更新状态,不如一次性处理所有词,并利用所有先前的状态进行预测。
Transformer 基于把稳力机制,能够关注序列中的主要部分。这使得它可以并行处理大量词语,大幅提升了效率和性能,比较传统递归模型,提升了 10 到 100 倍。
这便是进步如此大的缘故原由。
Hannah Fry:大概我们还会从措辞和序列中得到一种观点理解或抽象,这是否让你感到惊异?
Jeff Dean:是的。当我们听到一个词时,我们不仅想到它的表面形式,还会遐想到许多其他干系的事物。比如,“cow(牛)”会让我们想到牛奶、咖啡机、挤奶等。在词的表示中,方向性也很故意义。例如,“walk(走)”到“walked”的变革方向与“run(跑)”到“ran”的方向相同。这种表示不是我们故意设计的,而是演习过程中自然涌现的结果。
Hannah Fry:真是太神奇了。但这只是措辞方面的谈论。那么,多模态处理会如何改变呢?有什么不同?
Jeff Dean:多模态处理的关键在于如何将不同类型的输入数据(如图像和笔墨)转换为相同的高维表示。当我们看到一头牛时,这会在我们的大脑中激活类似的反应,不论是通过阅读“cow(牛)”这个词,还是看到牛的图片或视频。我们希望演习模型,使其能够将这些不同输入的联合意义和表示整合起来。这样,看到一段牛在野外中走动的视频,模型会触发与看到“cow(牛)”类似的内部反应。
Hannah Fry:以是,多模态处理并不是将措辞部分和图像部分分开处理再结合?
Jeff Dean:正是这样。在早期模型中,虽然存在这些表示,但处理起来确实更繁芜。
Hannah Fry:这是否使得多模态模型的初始设置更加困难?
Jeff Dean:是的,多模态模型的整合和演习比单一措辞模型或图像模型繁芜得多。然而,这样的模型可以带来很多好处,比如跨模态的迁移学习。看到牛的视觉信息可以帮助模型更好地理解措辞。这样,无论是看到“cow(牛)”这个词还是牛的图像,模型都会有类似的内部触发反应。
Hannah Fry:你认为这些多模态模型会改变我们的教诲办法吗?
Jeff Dean:我认为 AI 在教诲中的潜力巨大,但我们还在探索初期。
研究表明,一对一辅导比传统教室效果更好,那么 AI 能否让每个人都享受到类似的一对一辅导呢?这个目标离我们已经不远了。
未来,像Gemini这样的模型可以帮助你理解教材中的内容,无论是笔墨、图片,还是视频。如果有不理解的地方,你可以提问,模型会帮助阐明,还能评估你的回答,勾引学习进度。
这种个性化学习体验能惠及环球,不仅限于英语,还将支持环球数百种措辞。
Hannah Fry:你提到的多措辞和遍及工具的想法很好,但是否存在这样的风险:利用这些工具的人获益更多,而无法利用的人会面临更多困难?这是你担心的问题吗?
Jeff Dean:是的,我担心可能会涌现一个两级系统。我们该当努力让这些技能遍及,让它们的社会上风最大化,并且确保教诲资源变得包袱得起或免费。
Hannah Fry:现在打算办法彷佛已经从确定性转向概率,"大众年夜众是否须要接管模型可能会犯错的现实?这种问题是否能办理?
Jeff Dean:两者都有。一方面,我们可以通过技能进步,比如更长的高下文窗口来提升准确性。另一方面,"大众年夜众须要明白模型是工具,不能完备依赖它们的每个输出。我们要教诲人们保持适度疑惑,同时技能的进步会减少这种疑惑,但适度审查依然主要。
Hannah Fry:除了高下文窗口,还有其他方法可以减少虚假结果的风险吗?
Jeff Dean:是的,另一个方法是“思维链提示”(chain of thought prompting)。例如,对付数学问题,让模型逐步展示解题过程比直接问答案更有效,不仅输出更清晰,精确率也更高。纵然在没有明确答案的问题上,给出更详细的提示也能得到更好的结果。
Hannah Fry:这些多模态模型会理解我们的个人特点和偏好吗?
Jeff Dean:是的,我们希望模型能更个性化,比如根据你是素食主义者推举素食餐厅。虽然现在可能还做不到,但未来会有更多符合个人需求的功能,比如制作适宜孩子的插图故事书。
我们希望模型能处理繁芜的任务。例如,你可以用大略的指令让机器人完成家务。虽然现在的机器人还做不到这一点,但我们正靠近实现这个目标,未来它们能在混乱的环境中完成许多有用的任务。
Hannah Fry:现在这些助手紧张用于增强人类能力,特殊是在医疗和教诲领域。多模态模型是否能帮助我们更好地理解天下?
Jeff Dean:是的,随着模型能力的提升,它们能处理更繁芜的任务,比如椅子租赁或会议策划。模型可以像人一样提出问题以明确需求,并进行高层次的任务。此外,它们能在仿照器中测试不同设计方案,例如设计飞机。虽然我们不能准确预测这些能力何时实现,但模型在过去5到10年里取得了显著进展。未来,这些功能可能会更快实现,乃至能帮助设计特定的飞机。
(AI科技评论长期环绕AI与机器人领域的前沿研究进行盘点和宣布,过去数年,我们吸收和宣布了上千篇宣布,覆盖环球各大高校与企业的顶级实验室。欢迎添加微信nabaur进行互换,如果您有精良的事情想要分享,也欢迎投稿或者联系宣布。)
参考资料:https://www.youtube.com/watch?v=lH74gNeryhQ