近日,Scale AI 创始人&CEO Alexandr Wang 与 a16z 合资人 David George 展开了深入对话。

Alexandr Wang 表示,AI 的进展依赖于打算能力、算法创新和数据资源,而 Scale AI 专注于推动前沿数据的天生,支持 AI 在前沿技能中的进步。

与去年同期比较,Scale 今年上半年发卖额险些增长了三倍,达到近 4 亿美元,为大型客机公司标记数据已经成为一项巨大的业务,估量今年收入将达到近 10 亿美元。

现有的公开数据资源已被充分利用,未来 AI 发展的核心在于如何天生新的高繁芜度、前沿数据,并在此根本上推动更高水平的智能进步。

深度|Alexandr Wang 最新 a16z 对谈AI 领域三大年夜支柱企业英伟达OpenAI 和 Scale AI

他强调,在公司快速扩展过程中,招聘大量新员工反而可能降落组织的整体绩效。
关键在于保持小规模、高效的团队,并确保外部高管能深入理解公司的运作节奏后,再逐步勾引变革。

此外,他还将 AGI 定义为能够完成 80% 以上人类可通过打算机完成的数字化事情,虽然这一目标并非短期内可实现,但随着算法创新,未来 4 年内或许能看到早期迹象。

以下为这次对话的紧张内容,enjoy~

David George:

我总是很喜好和你谈天,每次都能学到很多。
我们可以先聊聊你在 Scale AI 正在构建的东西,然后深入磋商。

Alexandr Wang:

好的,在 Scale ,我们正在为 AI 构建数据铸造厂。
从大的层面来看, AI 归结为三大支柱:打算、数据和算法。

我们所看到的所有进展都来自这三个方面:打算由像 Nvidia 这样的公司推动,算法的进步由像 OpenAI 这样的大型实验室引领,而数据则由 Scale 供应。

我们的目标是生产前沿数据,以推动与各大实验室互助的前沿水平进步,并使每个企业和政府能够利用他们的专有数据来推动自己的前沿 AI 发展。

David George:

关于前沿数据这个话题,实际上你是如何得到这些数据的呢?

Alexandr Wang:

是的,我认为这是我们这个时期的伟大人类项目之一。
如果这故意义的话,我认为目前唯一的聪慧模型便是人类,而前沿数据的生产很像是人类专家与技能和算法技能的结合,以生产大量此类数据。
顺便说一句,迄今为止我们所产生的所有数据,互联网也是类似的。

在很多方面,互联网是机器和人类互助产生大量内容和数据的成果。
而未来的情形可能就像增强版的互联网:如果互联网不仅仅是一个人类娱乐设备,而是一个大规模的数据天生实验,会若何呢?

David George:

你对行业现状有独特的见地,你如何描述当前措辞模型的状态呢?我很想谈谈市场构造,但可以先从你对行业的整体意见开始。

Alexandr Wang:

是的,我认为我们可能正靠近措辞模型开拓的第二阶段末期。
第一阶段是早期险些完备的研究阶段,标志性的成果包括最初的 Transformer 论文和对 GPT 的早期小规模实验,直到 GPT-3 发布为止。

这是一个专注于小规模实验和算法进步的阶段。
然后,第二阶段大致从 GPT-3 开始到现在,进入了初始扩展阶段。

GPT-3 表现得相称不错,接着 OpenAI 及其他公司开始大规模扩展这些模型,像Google、Anthropic、 Meta 和 xAI 等许多公司也加入了这个竞赛,将模型的能力提升到极限。

过去两三年间,险些完备是实行层面的事情,涉及如何使大规模演习顺利进行,如何避免代码中的怪异缺点,如何设置更大的集群等。

接下来我认为我们将进入一个研究和实行之间更多交替的阶段,各实验室将朝着不同的研究方向发展,并在不同期间取得各自的打破,因此这是一个激动民气的迁移转变期。

David George:

他们已经达到了一个阶段,虽然不能说打算资源是丰富的,但已经足够支撑模型的发展,基本不再是一个限定。
而在数据方面,所有前沿实验室已经尽可能地挖掘了可用的数据资源。
接下来便是在数据方面取得打破,对吗?

Alexandr Wang:

是的,基本上是这样。
如果你看这三大支柱,打算方面我们显然会连续扩大演习集群的规模,这个方向是比较明确的。
算法方面,我认为将会有很多创新。

事实上,很多实验室现在都在这一领域进行深入的研究。
而关于数据,你提到的很对,我们已经用尽了所有随意马虎获取的公开数据。

David George:

是的,所有人都可以得到相同的数据。

Alexandr Wang:

没错,很多人称之为“数据墙”,我们已经利用了所有公开的数据资源。
而下一阶段的标志之一将是数据生产。

每个实验室将如何天生所需的数据以实现更高的智能水平,这将是一个关键问题,我们如何朝着数据丰富迈进?这将须要多个领域的前沿研究。

我认为,首先是推动数据繁芜性的提升,迈向前沿数据。
我们希望在模型中构建的许多能力,其最大的障碍实在是数据的缺少。

比如说,过去两年内, Agent 一贯是一个热门话题,但实际上险些没有 Agent 能很好地运作。
缘故原由是网络上根本没有大量有代价的 Agent 数据。
这些数据不在那里,以是我们须要生产高质量的 Agent 数据。

David George:

能举个例子,解释我们须要生产什么样的数据吗?

Alexandr Wang:

我们即将发布的一项研究表明,目前所有前沿模型在工具组合上的表现都很差。
比如它们须要先查找信息,然后编写一个 Python 脚本,再绘制图表,利用多个工具串联起来办理问题时,模型表现得非常糟糕。
而这对人类来说是非常自然的。

David George:

是的,但这些操作没有被记录下来,是这个意思吗?也便是说,模型无法学习到这些步骤。

Alexandr Wang:

完备精确。
这些推理链条在人类办理繁芜问题时非常常见,我们会自然地利用一系列工具,思考问题并推理下一步须要做什么。
如果碰着缺点,我们会回过分重新考虑。
很多这样的智能链条数据本日根本不存在。
这是一个须要天生的数据例子。

退一步讲,首先须要在数据上取得的进展是增加数据的繁芜性,朝前沿数据迈进。
其次是增加数据的生产量,捕捉更多人类在实际事情中的行为。

David George:

更多捕捉人类在事情中的实际操作?

Alexandr Wang:

是的,捕捉更多人类的操作行为,同时投资于合成数据或稠浊数据。
利用合成数据,同时让人类参与个中,从而天生更高质量的数据。
我们须要像对待芯片生产一样看待数据生产。

就像我们谈论芯片生产的边界,确保有足够的生产能力来制造芯片。
对付数据也是一样的,我们须要有效的数据生产边界,能够天生海量数据来支持模型演习。

末了一个常常被忽略的方面是对模型的丈量,确保我们能够科学地剖析模型的不敷之处,从而精确确定须要添加哪种数据来提高模型的性能。

David George:

大科技公司相对付独立实验室,在数据资源上有多大的上风呢?

Alexandr Wang:

大公司在利用现有数据资源时面临很多监管问题。
你可以看到,在天生式 AI 之前, Meta 曾利用所有公开的Instagram照片及其标签来演习非常精良的图像识别算法,但这在欧洲碰着了许多监管问题,终极变得非常麻烦。

以是如何处理这些数据上风从监管角度来看,特殊是在欧洲,还须要进一步不雅观察。
我认为大实验室的真正上风在于它们有非常盈利的业务,能够为 AI 项目供应险些无限的资金来源。
对此,我非常关注,也很好奇它将如何发展。

David George:

行业中有一个问题是,是否大公司在 AI 领域投入过多。
如果你听他们的财报电话会议,他们会说,我们的风险在于投入不敷,而不是投入过多。
对此你怎么看?

Alexandr Wang:

是的,没错。
你可以想象一下,站在这些 CEO 的角度,比如 Sundar Pichai 、Mark Zuckerberg,或者 Satya Nadella 的位置上。
正如你所说,如果他们真正捉住了 AI 的机会,他们可能很随意马虎地为公司增加一万亿美元的市值。

如果他们真的领先竞争对手,并以好的办法将 AI 产品化,这险些是显而易见的。
而如果他们没有投入额外的 200~300 亿美元的成本支出,倒是以错失落了这个机会,后果可能是存在性风险。

Alexandr Wang:

对付这些大公司来说,每家企业的业务都有可能被 AI 技能深度颠覆。
以是对他们来说,风险和回报非常清晰。
更战术层面上,他们也能够轻松收回成本支出。
最坏的情形下,他们可以通过使核心业务更高效来实现这一点。

David George:

比如说,Facebook 广告中的 GPU 利用率?

Alexandr Wang:

是的,比如 Facebook 或 Google,他们的广告系统只要轻微改进一点,就可以回收数十亿美元的本钱。

David George:

通过更好的性能?

Alexandr Wang:

是的,苹果也可以通过推动一个设备升级周期轻松回收投资。
我认为这些都相称清晰。

David George:

从全体行业来看,这些公司投入大量成本对行业是有益的,尤其是像 Google 和微软这样的公司,它们还在出租打算资源。

Alexandr Wang:

而且,这些模型已经在逐渐遍及。
比如 Llama 3.1 已经是开源的。
所有这些投资的成果正在变得越来越广泛可用。
开源模型所产生的溢出效应实在是令人难以置信。

David George:

这是一个很好的过渡,谈到市场构造,你怎么看待未来几年的发展?会不会是几个已经确定的玩家彼此竞争?你以为这是个盈利的业务吗?开源对业务质量的影响是什么?请你展望一下未来几年的市场情形。

Alexandr Wang:

是的,过去的一年半里,模型推理的定价已经急剧低落,低落了两个数量级。
令人惊异的是,智能可能成为一种商品。
我认为,纯粹依赖模型租赁业务在长期可能并不是最优的商业模式,这可能只是一个相对平庸的业务。

David George:

这或许取决于早期提到的打破点。
如果有人真的取得了持久的打破,市场构造可能会有所不同。

Alexandr Wang:

有两件事。
第一,如果 Meta 连续开源模型,那么模型的代价上限会被大大压低。
第二,如果几家实验室能够达到类似的性能,这也会显著改变定价策略。
以是我认为,虽然不愿定,但纯粹的模型租赁业务可能不是最有代价的业务,更优质的业务机会在模型的上层和下层。

下层,比如 Nvidia 显然是一个非常出色的业务,云做事供应商也拥有很好的业务,由于搭建大规模的 GPU 集群实际上是相称繁芜的,云供应商在租赁这些资源时拥有不错的利润率。

David George:

传统的数据中央业务实质上也是规模游戏。
因此,比较于较小的玩家,他们得到了极大的好处。

Alexandr Wang:

是的,正是如此。
以是在模型层之下有很好的业务机会。
在模型之上,如果你在构建运用程序,比如 ChatGPT 便是一个很好的业务,许多初创公司开拓的运用程序也表现得不错。

虽然没有哪家公司的规模能与 ChatGPT 比较,但如果这些运用能够在早期找到产品市场契合点,它们就能成为很好的业务。
由于如果用户体验做得好,运用程序为客户创造的代价远远超过了模型的推理本钱。

还有一些有趣的事情,比如 Anthropic 在 Claude 中引入的功能是一个旗子暗记,表明各大实验室都在深入推动产品集成,以提升业务质量。
我认为未来我们将在产品层面看到大量迭代。

大略的谈天机器人绝不是终极产品,那将是一个令人失落望的结果。
以是产品的创新周期是难以预测的,正如我们没想到 ChatGPT 会如此受欢迎。

我认为没人能确切预测下一个增长点在哪个产品上,但可以肯定的是, OpenAI 和Anthropic有能力打造伟大的运用程序业务,实现长期独立和可持续发展。

David George:

那么竞争上风的推动力是什么?显然你须要模型,与之紧密集成的产品,以及从此衍生出的传统护城河,比如事情流程、集成等。

Alexandr Wang:

是的,你可以看到, OpenAI 和 Anthropic 险些在同一韶光都聘请了首席产品官,他们正在逐步摸索。
我认为这表明了他们开始意识到,纯粹的技能驱动不再足够,须要深入的产品集成才能实现长期的商业成功。

David George:

你有一个有趣的运用程序业务,也有一些非常故意思的客户。
你从企业客户那里听到的关于他们实际如何运用这些技能的反馈是什么?

Alexandr Wang:

我认为我们已经看到了企业的巨大愉快度。
许多企业都意识到,“我们必须开始行动了,我们必须抢占先机,开始考试测验 AI 。
” 这让他们进入了快速的 POC(观点验证)周期,他们会想着,“好吧,看看我们有哪些可以迅速履行的低垂果实般的想法。

David George:

搞一些 AI 项目。

Alexandr Wang:

于是他们考试测验了所有这些想法。
有些很好,有些不好。
但无论如何,这种热潮确实存在。
不过,实际推向生产环境的 POC 项目远远少于行业的预期。

我认为现在许多企业看到,原来他们担心的“末日”并没有发生—— AI 并没有完备改造和颠覆各大紧张行业,它并没有彻底改变所有的游戏规则。

David George:

更多是一些边缘性改进,比如提高效率、支持性的任务,还有一些创意类任务之类的。

Alexandr Wang:

对,没错。
总体来说影响比较轻微。
我们思考的一个主要问题是:AI 的改进或变革能否真正显著提升这些公司的股价?这也是我们鼓励所有客户重点考虑的,由于从潜力上来看,险些每个企业都具备在某种程度上履行 AI ,从而显著提升其股价的潜力。

David George:

大多是通过节省本钱和提高效率。

Alexandr Wang:

是的,本日的 AI 大多表示在本钱节省方面,但未来也可以极大地改进客户体验。
我认为在许多须要与客户大量人工互动的行业,如果能够实现更多的标准化和自动化,客户的互动体验将会显著改进。
终极,这也会转化为市场份额的提升。

以是这是我们推动客户努力的方向,我看到我们互助的一些 CEO ,他们都理解这是一个多年的投资周期,可能不会不才个季度见到成效,但如果他们坚持到末了,业务将会有巨大的变革。

我认为那些环绕小用例和边缘性运用的热潮是好事,该当连续考试测验,但这并不是我们在这里的终极目标。

David George:

是的,现在的运用层更多像是第一个阶段,比如目前的 AI 运用大多是自动化工具,紧张是谈天机器人。
作为创业投资者,我希望未来会有一个窗口,初创公司可以通过产品创新击败现有的行业巨子。

我的合资人 Allison Pal 有一句话:“初创公司能否在现有公司找到创新之前,率先实现分销?” 我认为这是一个机会,但技能现在还太早,不知道你是否赞许?

Alexandr Wang:

我赞许,现在的技能还为时过早,紧张是由于目前大部分的好处来自于本钱节省,而这还不敷以颠覆已经拥有强大分销和增长本钱上风的大企业。

David George:

你怎么看待企业内部的数据?比如你提到JP摩根拥有15PB的数据,但这些数据真的那么有用吗?由于目前这些数据彷佛并没有带来巨大的竞争上风。
你认为这种情形会改变吗?

Alexandr Wang:

我认为 AI 是第一次有可能改变这一现状的机会。
大数据热潮归结于更好的剖析,这对业务决策的帮助是边际的,而不是颠覆性的。

现在我们可以想象,产品运作办法会发生巨大变革。
比如,像 JP 摩根这样的银行,大部分用户与银行的互动是由人驱动的。
只管他们尽力确保高质量的客户体验,但人工操作的局限性显而易见。

然而,企业过去的客户互动办法和业务运作数据是演习模型的唯一可用数据,这些数据可以帮助我们做得更好。

David George:

在企业内部有丰富的数据?

Alexandr Wang:

是的,企业内部有大量丰富的数据,但并不是所有数据都与业务转型干系,只有部分数据非常有代价。
不过,企业在利用数据方面确实面临巨大的寻衅。

数据每每组织混乱,分布不均,他们支付数千万乃至上亿美元给咨询公司进行数据迁移,结果每每没有本色性变革。

因此,问题在于他们能否比初创公司更快地利用和挖掘这些数据,从而创造出截然不同的产品。

David George:

好,转到公司运营和你如何构建公司这一话题。
你曾谈到,在2020年和2021年的高速增长期,你犯下了一个关于招聘的缺点,认为要快速扩展就必须大量招聘人才。
我们看到许多投资组合公司也碰着了类似的情形——争夺人才。
你从中学到了哪些教训?后来你是如何改变招聘策略的?

Alexandr Wang:

过去几年里,我们基本上保持了员工数量的平稳增长。
虽然我们略微扩展了职员规模,但业务本身已经增长了五到六倍。

全体过程的启迪是,看似招聘更多的人就意味着更好的结果、更多的事情能完成,但实际上,如果你拥有一支高效的团队和高效的组织,想要快速扩充职员规模而不失落去高效性和成功文化,险些是不可能的。

David George:

是的,减少沟通和折衷的开销确实会提高生产力。

Alexandr Wang:

没错,而且我认为这背后还有更深层次的缘故原由。
一支高效的团队就像一件非常风雅的雕塑,它是团队成员之间繁芜互动的产物。
如果你贸然添加很多人,纵然这些人都很精良,也会打乱全体团队的节奏。

无论如何,随着你增加职员,都会涌现“回归均匀”的征象。
如果你不雅观察那些大规模扩展的公司,他们的财务结果很大程度上取决于是否定可这一回归征象。

例如,大型发卖团队的扩展过程中,人们常日会承认回归均匀的征象,但通过良好的操作,他们可以保持略高于均匀水平。
只要能做到这一点,全体财务运作仍旧有效。

David George:

发卖和产品之间的差异还是很大的。

Alexandr Wang:

是的,当然不一样。
但我们的不雅观察是,初创公司之以是有效,是由于它们拥有高度实行力的团队,而你希望尽可能永劫光保持这些团队的完全性。

我认为初创公司常见的失落败模式是,你的产品或做事成功了,但公司内部的每个人都很年轻和缺少履历。

随着业务的扩展,所有事情都逐渐失落控。
投资者见告你该当聘请一些高管,你开始经历每次都让民气力交瘁的高管招聘过程。

David George:

如果你运气好,成功率也只有一半。

Alexandr Wang:

是的,你经由高管招聘,聘请了高管,接着给他们很多自由空间。
高管们会说:“我们须要建立一支弘大的团队来实现我们的目标。
” 你想:“好吧,我也很有履历,你看起来也很有履历,那就按你说的来吧。
” 然后你许可这些大团队建立起来,终极的结果险些总是毁坏性的。

我不是说不能从外部聘请高管,但当你这样做时,你必须确保这些高管真正融入公司的运作,理解公司的节奏和事情办法。

在他们提出任何重大建议之前,他们该当先理解为什么公司目前的运作是成功的,然后逐步提出培植性的建议。
你须要一步一步地信赖并验证这些小的改变,终极他们可能会提出更大的建议,但那时他们已经有了一系列成功的小步调整的记录。

David George:

这很有趣,而且非常详细。
当你聘请一个高等高管时,从小做起有些反直觉,由于大多数高管都不喜好这样做。

Alexandr Wang:

是的,我把稳到有种“高治理想”,特殊是在年轻创始人领导的硅谷公司中常见。
很多高管会认为:“我来这里是为了修复这家公司,我要把这里变成一家专业化运作的企业。

但实际上,你在招聘的是团队成员,不是什么神奇的工具。
你希望这个人能长期做出明智的决策,而不是抱负他们会带来某种神奇的办理方案。

相反,创始人也有一种抱负,认为:“我会雇一群精良的高管,然后我就可以退后一步,只须要看着事情自然运转。
” 但这同样不现实。
作为创始人,成功的关键在于你持续做出一系列精确的决策。
如果你分开了这些决策环节,那险些是自毁行为。

David George:

我们常常看到这种模式:创始人雇佣高管,然退却撤退居幕后,结果创造一些重大决策出了问题,意识到:“等一下,这便是我留在这里的缘故原由。

Alexandr Wang:

如果你的行业非常稳定,这可能会见效。

David George:

是的,就像当一家上市公司改换 CEO 时,股价只颠簸 2%,这表明在稳定行业中,高管确实像一个齿轮。
但是在由创始人领导的高增长初创公司中,这种情形完备不同。

Alexandr Wang:

没错,很多初创公司和企业的代价在于它们的创新溢价。
投资者相信由创始人领导的公司会比市场上的其他公司更具创新能力。
以是你的任务便是不断地超越市场进行创新。

David George:

你必须参与到计策决策中,完备赞许。
那我们谈谈“Mei”吧。
你最近推出了这个观点,我看到我的 X 平台上有很多人夸奖你,也有一部分人在批评你。
能不能聊聊这个观点,以及你推出它后的不雅观察?

Alexandr Wang:

是的,Mei 的核心理念是追求卓越与聪慧。
我们决定,在每个职位上,我们都会雇佣最得当的人,而不考虑他们的背景或其他人口统计信息。

我们不会为了达到某些人口统计目标而进行配额式的优化。
但这并不虞味着我们不关心多样性。

实际上,我们非常重视在招聘过程中保持多样化的候选人来源,但终极我们只会选择最能胜任的人。
这一决定引起了一些争议,但从实质上讲,我认为这是一种显而易见的社会准则。

David George:

很有知识,觉得这该当是知识吧?

Alexandr Wang:

是的,这彷佛是显而易见的道理。
公司该当雇佣最有才华的人。
我以为现在很多问题都环绕着公司到底有多少社会任务感在做他们的事情。
我的不雅观点是,我所处的行业竞争非常激烈。

Scale 的义务是推动智能技能的发展,这是一个非常主要的技能领域。
我们须要非常聪明的人能力力做到这一点,我们须要最精良的人来实现这些目标。

我认为,大多数在 Scale 的人可能都会认为这在某种程度上是显而易见的,或者说这并没有偏离我们在 Scale 事情的实质想法。

但明确将这一点写入我们的文化非常有代价,由于这意味着纵然公司随着韶光的推移而发生变革,这种对卓越人才的追求不会改变。

David George:

这真是太棒了。
我想以一个乐不雅观的问题作为结尾,问一下你对 AGI的意见以及你估量何时能实现?

Alexandr Wang:

是的,我喜好这样定义 AGI:大约 80%以上的数字化事情,也便是人类可以完成的纯粹依赖打算机的事情, AI 也能独立完成。

这并不是即将实现的事情,也不在短期内的可见范围内。
我以为大概 4 年旁边的韶光可以看到端倪。
当然,这还取决于我们之条件到的算法创新周期,如果有打破,可能会更早实现

本文由大家都是产品经理作者【江天 Tim】,微信公众年夜众号:【有新Newin】,原创/授权 发布于大家都是产品经理,未经容许,禁止转载。

题图来自Unsplash,基于 CC0 协议。