一篇论文奠定现代人工智能8位谷歌员工的幕后故事

8 位谷歌员工有时相遇，共同撰写了首创性的“变换器”论文，这一技能打破彻底改变了人工智能领域，尤其在理解和天生类似人类的文本方面。

2017 年春，一篇名为《Attention Is All You Need》的科学论文出身，其上署名的八位作者均来自谷歌，只管当时已有一名成员离职。
资深作者 Noam Shazeer在看到初稿时，意外地创造自己的名字排在首位，这彷佛意味着他的贡献最为主要。
对此，他表示：“我并没有刻意考虑过这个问题。
”

在学术界，如何排列作者名字一贯是个奇妙的平衡问题——谁的名字放在最前面，谁的又放在末了。
尤其是在这种每个人都在一个真正的团队互助中留下了独特印记的情形下。
在匆忙完成论文的过程中，研究团队终极决定冲破常规，不再对贡献者进行排名。
他们在每个名字旁加上了星号和脚注：“平等贡献者”，并注明“排名顺序是随机的”。
这篇论文随后被提交到了一个享有盛誉的人工智能会议，并在那里引发了一场革命。

/姓名：NOAM SHAZEER / 职业：角色AI的联合创始人兼首席实行官

一篇论文奠定现代人工智能8位谷歌员工的幕后故事

如今，随着 “Attention” 论文即将迎来七周年，它已经得到了传奇般的地位。
这篇论文的作者们从一个发达发展的人工智能技能——神经网络——出发，将其提升到了一个新的高度：他们创造出了一个数字系统，其强大到仿佛拥有外星智能。
这种被称为“变换器”（transformers）的架构，成为了所有令人惊叹的 AI 产品背后的神秘力量，包括 ChatGPT 以及图形天生器 Dall-E 和 Midjourney 等。

Shazeer 开玩笑说，如果他早知道这篇论文会变得如此著名，他“可能会更加担心作者名单的排序”。
如今，所有八位作者都已经成为了微型名人。
Llion Jones（随机排在第五位）说：“有人由于我曾经参与过一篇论文而向我索要自拍。
”

/姓名：LLION JONES/职业：SAKANA AI的联合创始人

“没有变换器，我认为我们本日不会在这里，”天下著名 AI 科学家 Geoffrey Hinton 说，只管他并非论文的作者。
他指的是我们所处的这个变革时期，OpenAI 等公司正在构建的系统在某些方面乃至超越了人类的产出。

这八位作者后来都离开了谷歌。
现在，他们和数百万人一样，都在以某种办法利用他们 2017 年创造的技能。
我采访了这八位“变换器”作者，试图拼凑出这一打破性成果的全貌——一群人类聪慧的凑集，创造出了一台可能终极自我闭幕的机器。

变换器的故事始于名单上的第四个名字：Jakob Uszkoreit。
他的父亲 Hans Uszkoreit 是一位有名的打算措辞学家。
Hans 在 1960 年代末因抗议苏联入侵捷克斯洛伐克而在东德被监禁了 15 个月。
出狱后，他逃到西德，并在柏林学习打算机和措辞学。
后来他来到美国，在加利福尼亚州门洛帕克的 SRI 研究所事情，那时 Jakob 出生了。
终极，他们一家回到了德国，Jakob 在那里上了大学。

/姓名：JAKOB USZKOREIT / 职业：INCEPTIVE的联合创始人兼首席实行官

只管他原来并未打算专注于措辞，但在开始研究生学习时，他在谷歌的山景城办公室演习，并加入了公司的翻译团队。
他放弃了博士操持，2012 年决定加入谷歌一个团队，该团队致力于开拓一个能够在搜索页面上直接回答用户问题的系统，而无需将用户重定向到其他网站。
当时，苹果刚刚发布了 Siri，一个承诺能在随意对话中供应一次性答案的虚拟助手，谷歌高层认为 Siri 可能会威胁到他们的搜索流量。
他们开始更加关注 Uszkoreit 的新团队。

“这是一场虚假的惶恐，”Uszkoreit 说。
Siri 并没有真正威胁到谷歌。
但他欢迎有机会深入研究打算机与人类对话的系统。
当时，循环神经网络——一度是学术界的边缘领域——溘然开始超越其他 AI 工程方法。
这些网络由多层构成，信息在这些层中反复通报，以识别最佳相应。

神经网络在图像识别等领域取得了巨大成功，AI 复兴运动溘然兴起。
谷歌正在猖獗地调度其劳动力构造，以采取这些技能。
公司希望建立能够产生类似人类相应的系统——比如在电子邮件中自动完成句子，或创建相对大略的客户做事谈天机器人。

然而，这个领域碰着了限定。
循环神经网络难以处理较长的文本块。
例如，理解句子“Joe is a baseball player, and after a good breakfast he went to the park and got two hits”中的“two hits”，措辞模型须要记住关于棒球的信息。
用人类的话说，它必须保持关注。

当时的办理方案是一种名为“是非期影象”（LSTM）的技能，它许可措辞模型处理更大、更繁芜的文本序列。
但打算机仍旧严格按顺序处理这些序列——逐词处理——并忽略了可能涌如今文本后面的高下文线索。
“我们正在运用的方法基本上是权宜之计，”Uszkoreit 说。
“我们无法真正让精确的东西按规模事情。
”

大约在 2014 年，他开始构思一种不同的方法，他称之为自我关注。
这种网络可以通过引用文本的任何其他部分来翻译一个词。
这些其他部分可以帮助澄清一个词的意图，并帮助系统产生一个好的翻译。
“它实际上考虑了统统，并为你供应了一种同时查看许多输入的有效办法，然后以相当选择性的办法取出一些东西，”他说。
只管 AI 科学家小心翼翼地不将神经网络的隐喻与生物大脑的实际事情办法稠浊，但 Uszkoreit 彷佛相信自我关注与人类处理措辞的办法有些相似。

Uszkoreit 认为，自我关注模型可能比循环神经网络更快、更有效。
它处理信息的办法也非常适宜支持机器学习热潮的大规模生产的并行处理芯片。
它不是采取线性方法（按顺序查看每个词），而是采取更并行的方法（同时查看多个词）。
如果做得精确，Uszkoreit 疑惑，你可以专门利用自我关注来得到更好的结果。

并不是每个人都认为这个想法会改变天下，包括 Uszkoreit 的父亲，他在儿子为公司事情期间得到了两项谷歌教职研究奖。
“人们对此表示疑惑，由于它抛弃了所有现有的神经架构，”Jakob Uszkoreit 说。
告别循环神经网络？这是异端！
“我和爸爸在餐桌上的对话中，我们并不完备同等。
”

Uszkoreit 说服了一些同事对自我关注进行实验。
他们的事情显示出前景，并在 2016 年揭橥了一篇关于它的论文。
Uszkoreit 希望将他们的研究推向更远——团队的实验只利用了文本的眇小部分——但他的互助者都没有兴趣。
相反，他们像赌徒一样，带着适度的胜利离开了赌场，将他们所学到的教训运用于谷歌的各个不同领域，包括搜索和终极的广告。
在许多方面，这是一个惊人的成功，但 Uszkoreit 不想就此止步。

Uszkoreit 认为自我关注可以承担更大的任务。
他会向任何乐意谛听的人，乃至一些不愿意的人，阐述他的愿景，并在谷歌校园北缘的查尔斯顿路 1945 号大楼中，用白板勾勒出他的愿景。

2016 年的一天，Uszkoreit 正在谷歌咖啡厅与一位名叫 Illia Polosukhin 的科学家共进午餐。
出生于乌克兰的 Polosukhin 在谷歌事情了将近三年。
他被分配到回答搜索领域直接提出的问题的团队。
情形并不十分顺利。
“要在 Google.com 上回答某些东西，你须要一些非常便宜且高性能的东西，”Polosukhin 说。
“由于你只有毫秒级的韶光来相应。
”当 Polosukhin 表达了他的抱怨时，Uszkoreit 绝不犹豫地提出了一个办理方案。
“他建议，为什么不该用自我关注？”Polosukhin 说。

/姓名：ILLIA POLOSUKHIN/职业：NEAR的联合创始人

Polosukhin 有时与同事 Ashish Vaswani互助。
Vaswani 出生在印度，在中东终年夜，他去了南加州大学得到了机器翻译精英团队的博士学位。
之后，他搬到山景城加入了谷歌——特殊是一个名为谷歌大脑（Google Brain）的新组织。
他将大脑描述为“一个激进的团队”，相信“神经网络将推进人类理解”。
但他仍在探求一个大项目来事情。
他的团队在 1945 号大楼阁下，即 1965 号大楼事情，他听说了自我关注的想法。
那会是项目吗？他赞许动手进行。

这三位研究职员共同起草了一份名为“变换器：迭代自我关注和处理各种任务”的设计文件。
他们从“第一天”起就选择了“变换器”这个名字，Uszkoreit 说。
这个想法是，这种机制将转换它所吸收的信息，使系统能够提取尽可能多的理解——或者至少给人这种印象。
此外，Uszkoreit 对童年期间与孩之宝动作人物玩具一起玩耍有着美好的回顾。
“我小时候有两个小变形金刚玩具，”他说。
文件以一张卡通形象的六个变形金刚在山区地形中，相互发射激光的图片结束。

/姓名：ASHISH VASWANI/职业：ESENTIAL AI的联合创始人兼首席实行官

论文开头的句子也有些自大：“我们很棒。
”

2017 年初，Polosukhin 离开谷歌创办了自己的公司。
到那时，新的互助者加入了进来。
一位名叫 Niki Parmar 的印度工程师曾在印度为一家美国软件公司事情，后来搬到美国。
她在 2015 年从南加州大学得到了硕士学位，并被所有大型科技公司招募。
她选择了谷歌。
当她开始事情时，她加入了 Uszkoreit 并致力于改进谷歌搜索的模型变体。

另一位新成员是Llion Jones。
他在威尔士出生和终年夜，他喜好打算机“由于它不正常”。
在伯明翰大学，他上了一门 AI 课程，并对作为历史遗迹先容的神经网络产生了好奇心。
他在 2009 年 7 月得到了硕士学位，由于在经济衰退期间找不到事情，他靠救援金生活了几个月。
他在一家当地公司找到了事情，然后作为“绝望之举”申请了谷歌。
他得到了这份事情，并终极进入了谷歌研究部门，他的经理是 Polosukhin。

有一天，Jones 从名叫 Mat Kelcey 的同事那里听说了自我关注的观点，并后来加入了变换器团队。
（后来，Jones 碰着了 Kelcey，并向他简要先容了变换器项目。
Kelcey 并不买账。
“我见告他，‘我不愿定那会有效，’这基本上是我生平中最大的缺点预测，”Kelcey 现在说。
）

/姓名：NIKI PARMAR / 职业：ESSENTIAL AI的联合创始人

变换器的事情吸引了其他也在试图改进大型措辞模型的谷歌大脑研究职员。
这第三波包括出生于波兰的理论打算机科学家 Łukasz Kaiser 和他的演习生 Aidan Gomez。
Gomez 在加拿大安大略省的一个小农场村落落终年夜，他的家人每年春天都会为枫糖浆敲击枫树。

作为多伦多大学的大三学生，他对 AI “一见钟情”，加入了机器学习小组——Geoffrey Hinton 的实验室。
他开始联系在谷歌写过有趣论文的人，提出扩展他们事情的想法。
Kaiser 中计了，并约请他演习。
直到几个月后，Gomez 才知道这些演习是为博士生准备的，而不是像他这样的本科生。

Kaiser 和 Gomez 很快意识到，自我关注看起来是办理他们正在办理的问题的一个有出息的、更激进的方案。
“我们故意识地谈论了是否想要合并这两个项目，”Gomez 说。
答案是是的。

变换器团队开始构建一个自我关注模型，将文本从一种措辞翻译成另一种措辞。
他们利用一个称为 BLEU 的基准来衡量其性能，该基准将机器的输出与人类翻译者的事情进行比较。
从一开始，他们的新模型就做得很好。
“我们从没有观点证明到拥有至少与当时 LSTM 的最佳替代方法相媲美的东西，” Uszkoreit 说。
但与是非期影象比较，“它并不更好。
”

他们达到了一个平台——直到 2017 年的一天，Noam Shazeer 有时听说了他们的项目。
Shazeer 是一位资深谷歌员工——他于 2000 年加入公司——并是一个内部传奇，从他在公司早期广告系统的事情开始。
Shazeer 已经从事深度学习事情五年，最近对大型措辞模型产生了兴趣。
但这些模型远远没有产生他认为可能的流畅对话。

据 Shazeer 回顾，他正在 1965 号楼的走廊里走过 Kaiser 的事情区。
他创造自己在听一场热烈的谈论。
“我记得 Ashish 正在评论辩论利用自我关注的想法，Niki 对此非常愉快。
我想，哇，那听起来是个好主张。
这看起来是一个有趣、聪明的团队，正在做一些有出息的事情。
”Shazeer 创造现有的循环神经网络“令人恼火”，并想：“让我们去更换它们！
”

Shazeer 加入团队是关键。
“这些理论或直觉机制，如自我关注，总是须要非常谨慎的履行，常日由少数履历丰富的‘魔术师’来展示任何生命迹象，”Uszkoreit 说。
Shazeer 立即开始施展他的邪术。
他决定自己编写变换器团队代码的版本。
“我拿了基本想法，自己把它做出来了，”他说。

偶尔他会向 Kaiser 提问，但大多数时候，他说，他“只是做了一段韶光，然后回来说，‘看，它事情了。
’”利用团队成员后来用“邪术”、“炼金术”和“铃铛和哨子”等词语描述的东西，他将系统提升到了一个新的水平。

“那引发了一场冲刺，” Gomez 说。
他们有动力，他们也想要遇上即将到来的截止日期—— 5 月 19 日，这是在 12 月举行的年度最大 AI 活动，神经信息处理系统会议（Neural Information Processing Systems conference）上揭橥论文的提交日期。
随着硅谷的冬天转变成春天，实验的步伐加快了。
他们测试了两种变换器模型：一种是用 12 小时演习生产的，另一种是更强大、被称为 Big 的版本，经由三天半的演习。
他们让它们开始进行英语到德语的翻译。

基本模型超越了所有竞争对手——而 Big 得到了一个 BLEU 分数，决定性地冲破了以前的记录，同时在打算上也更有效率。
“我们做到了，比任何人都快，” Parmar 说。
“而且那只是开始，由于数字不断在提高。
”当 Uszkoreit 听到这个时，他拿出了他在山地探险卡车里一贯放着的一瓶老喷鼻香槟庆祝。

在截止日期前的末了两周，团队的事情节奏变得猖獗。
只管官方上一些团队成员仍旧在 1945 号楼有办公桌，但他们大多在 1965 号楼事情，由于那里的微型厨房里有一台更好的浓缩咖啡机。
“人们险些不睡觉，”Gomez 回顾道，作为演习生，他忙于调试，同时还卖力制作论文的可视化和图表。
在这类项目中，常日会进行溶解实验——移除某些部分以验证剩余部分是否足以完成任务。

“我们考试测验了所有可能的技巧和模块组合——哪些有用，哪些无用。
我们不断地考试测验和更换，”Gomez 说。
“为什么模型会以这种违反直觉的办法运作？哦，由于我们忘却精确地进行遮蔽。
现在它事情了吗？好的，接下来连续下一个。
我们现在称之为变换器的所有这些组成部分都是这种高速、迭代试错过程的产物。
”在 Shazeer 的代码实现的帮助下，溶解实验产生了“某种简约的成果”，Jones 评价道。
“Noam 是个巫师。
”

Vaswani 记得有一次在办公室沙发上过夜，当时团队正在撰写论文。
他盯着分隔沙发和房间别的部分的窗帘，被上面的图案吸引，那看起来像是突触和神经元。
Gomez 当时也在场，Vaswani 见告他，他们正在做的事情将超越机器翻译。
“终极，就像人脑一样，你须要将所有这些模态——语音、音频、视觉——统一在一个单一的架构下，”他说。
“我有一个强烈的预感，我们正在创造一些更普遍的东西。
”

然而，在谷歌的高层，这项事情被视为只是另一个有趣的 AI 项目。
作者们被问及他们的上司是否常常调集他们更新项目进展，答案并不多。
但“我们知道这可能是相称大的一件事，”Uszkoreit 说。
“这导致我们实际上对论文末端的一句话着迷了。
”

那句话预示了接下来可能发生的事情——变换器模型运用于基本上所有形式的人类表达。
“我们对基于把稳力的模型的未来感到愉快，”他们写道。
“我们操持将变换器扩展到涉及除文本以外的输入和输出模态的问题”，并研究“图像、音频和视频。
”

在截止日期前几天的一个晚上，Uszkoreit 意识到他们须要一个标题。
Jones 指出，团队已经对一种技能进行了根本性的谢绝：把稳力。
披头士乐队曾经给一首歌命名为“你须要的只是爱”。
为什么不把论文命名为“Attention Is All You Need”呢？

“我是英国人，”Jones 说。
“这真的只花了五秒钟的思考。
我没想到他们会用它。
”

他们连续网络实验结果，直到截止日期。
Parmar 说：“我们提交论文前五分钟，英法数字结果出来了。
”“我当时坐在 1965 号楼的微型厨房里，拿到了末了一个数字。
”他们只剩下两分钟的韶光，匆忙地发送了论文。

谷歌和其他险些所有科技公司一样，迅速对这项事情申请了临时专利。
缘故原由不是为了阻挡他人利用这些想法，而是为了建立其专利组合以用于防御目的。
（公司的理念是“如果技能进步，谷歌将收成好处。
”）

当变换器团队听到会议同行评审者的反馈时，反应是稠浊的。
“一个是积极的，一个是极其积极的，一个是，‘这还可以，’”Parmar 说。
论文被接管在晚上的海报环节中展示。

到了 12 月，论文开始引起轰动。
他们 12 月 6 日的四小时会议挤满了想要理解更多的科学家。
作者们谈到嗓子都哑了。
到了晚上 10 点半，会议结束时，还有一群人。
“保安不得不见告我们离开，”Uszkoreit 说。
对他来说，最满意的时候可能是打算机科学家 Sepp Hochreiter 走上前来赞赏这项事情——考虑到 Hochreiter 是是非期影象的共同发明者，这是相称大的赞颂，而变换器刚刚将其作为AI工具箱中的首选工具所取代。

变换器并没有立即接管天下，乃至没有接管谷歌。
Kaiser 回顾说，在论文揭橥前后，Shazeer 向谷歌高管发起，公司该当放弃全体搜索索引，用变换器演习一个巨大的网络——基本上是用变换器改变谷歌组织信息的办法。
在那个时候，纵然是 Kaiser 也认为这个想法是荒谬的。
现在，传统聪慧认为这只是韶光问题。

一个名为 OpenAI 的初创公司更快地捉住了机会。
论文揭橥后不久，OpenAI 的首席研究员 Ilya Sutskever——在谷歌期间就认识变换器团队——建议其科学家 Alex Radford 研究这个想法。
结果便是第一批 GPT 产品。
正如 OpenAI 首席实行官 Sam Altman 去年见告我的，“当变换器论文出来时，我认为谷歌没有人意识到它的意义。
”

内部情形更为繁芜。
“我们很清楚变换器可以做到真正神奇的事情，”Uszkoreit 说。
“现在，你可能会问，为什么 2018 年谷歌没有推出 ChatGPT？实际上，我们本可以在 2019 年，大概 2020 年就有 GPT-3 乃至 3.5。
真正的问题不是，他们看到了吗？问题是，为什么我们没有利用我们已经看到的事实做任何事情？答案是繁芜的。
”

许多科技评论家指出，谷歌从以创新为中央的游乐场转变为以底线为中央的官僚机构。
正如 Gomez 见告《金融时报》的那样，“他们没有当代化。
他们没有采取这项技能。
”但对付一个技能领先行业数十年并得到巨大利润的巨子公司来说，这须要很大的胆量。
谷歌确实开始在 2018 年将变换器集成到产品中，首先是其翻译工具。
同年，它引入了一个新的基于变换器的措辞模型 BERT，第二年开始运用于搜索。

/姓名：AIDAN GOMEZ/职业：COHERE的联合创始人兼首席实行官

但与 OpenAI 的飞跃和微软大胆将基于变换器的系统整合到其产品线比较，这些幕后的变革彷佛胆小。
当我问首席实行官 Sundar Pichai 去年为什么他的公司没有像 ChatGPT 那样首先推出大型措辞模型时，他认为在这种情形下，谷歌创造让其他人领先是有利的。
“我还不太确定它是否会像现在这样成功。
事实是，人们看到它是如何事情的之后，我们能做得更多，”他说。

不可否认的是，论文的八位作者都离开了谷歌。
Polosukhin 的公司 Near 建立了一个区块链，其代币市值约为 40 亿美元。
Parmar 和 Vaswani 在 2021 年景为商业伙伴，共同创立了 Adept（估值 10 亿美元），现在正在运营他们的第二家公司，名为 Essential AI（得到 800 万美元投资）。

位于东京的 Llion Jones 的 Sakana AI 估值为 2 亿美元。
Shazeer 于 2021 年 10 月离开后，共同创立了 Character AI（估值 50 亿美元）。
演习生 Aidan Gomez 在 2019 年共同创立了位于多伦多的 Cohere（估值 22 亿美元）。
Jakob Uszkoreit 的生物技能公司 Inceptive 估值为 3 亿美元。
所有这些公司（除 Near 外）都基于变换器技能。

/姓名：LUKASZ KAISER / 职业：OPENAI的研究员

Kaiser 是唯一一个没有创立公司的人。
他加入了 OpenAI，并成为一项名为 Q 的新技能的发明者，Altman 去年说这项技能将“推动无知的面纱，并将创造的前沿推向提高。
”（当我试图在我们的采访中讯问 Kaiser 关于这个问题时，OpenAI 的公关职员险些跳过桌子来阻挡他。
）

谷歌是否惦记这些逃兵？当然，除了其他人从公司转移到新的 AI 初创公司。
（Pichai 提醒我，当我问他关于变换器离职的问题时，行业宠儿 OpenAI 也看到了叛逃：“AI 领域非常、非常动态，”他说。
）但谷歌可以夸耀的是，它创造了一个支持追求非传统想法的环境。
“在很多方面，谷歌一贯领先——他们投资于精确的头脑，并创造了一个我们可以探索和推动极限的环境，”Parmar 说。
“它花了韶光才被采纳并不奇怪。
谷歌有更多的短长关系。
”

如果没有那个环境：就没有变换器。
不仅作者们都是谷歌员工，他们也在同一办公室事情。
走廊上的偶遇和午餐时的闲聊导致了重大时候。
该团队在文化上也是多元化的。
八位作者中有六位出生在美国以外；其余两位是两位持有绿卡的德国人的孩子，他们暂时在加利福尼亚，以及一位家庭逃离伤害的一代美国人。

Uszkoreit 从他在柏林的办公室说，创新都是关于精确的条件。
“这是让那些对某事非常愉快的人在他们生活的得当机遇聚拢在一起，”他说。
“如果你有这个，并且你在干事时有乐趣，你正在处理精确的问题——而且你很幸运——邪术就会发生。
”

Uszkoreit 和他著名的父亲之间也发生了一些神奇的事情。
在所有那些餐桌辩论之后，Hans Uszkoreit，他的儿子报告说，现在共同创立了一家公司，正在构建大型措辞模型。
当然，利用的是变换器。

本文翻译自 WIRED：https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

本文内容不代表平台态度，不构成任何投资见地和建议，以个人官网/官方/公司公告为准。

每期AI知识网

一篇论文奠定现代人工智能8位谷歌员工的幕后故事

今朝国内领先的AIGC人员能力验证证书

不用叫方文山AI 能拯救杰伦的土味歌词