明明 2023 年的动作风驰电掣,今年却只迭代了一版模型;
明来岁夜家都在做泛娱乐、效率工具,他却频繁提起医疗和康健赛道。
很多人看不懂王小川。
在 AGI Playground 2024 上,王小川给出了自己的回答。
「本日的 AI 运用,大多只是模型能力对外的『呈现』。」在王小川看来,大模型创业者做运用要非常谨慎,用 App 工厂的模式做大模型运用,可能会给创业者带来很大的代价。
「娱乐运用 kill time,效率工具 save time,而医疗能延长韶光。」王小川笑说,所有东西都在变得越来越便宜,越来越随意马虎得到,但医疗和康健却在变得越来越贵。
这是个很难的问题,但大模型、AGI 能办理这个问题,以是他看到了机会。
以下内容来自 AGI Playground 2024 上,极客公园创始人 & 总裁张鹏与百川智能创始人 & CEO 王小川的对话,经 Founder Park 编辑整理。
01大模型创业第二年:开始换挡
张鹏:你是不是瘦了?
王小川:大概有三斤。
张鹏:那么精准啊。
王小川:常常有在称体重。
张鹏:跟你去年的状态变革还很大。去年我的印象是浑身张力拉满,一个月更新一次大模型。今年觉得不太一样,是有什么节奏的变革吗?
王小川:去年成立了新公司,可以说是一脚地板油,滋滋冒着烟往前冲,28 天发一个模型,速率也很快。
我们在 4 月份成立,6 月份发布第一款的 7B、13B 开源模型。8 月份国家发大模型牌照,全国八家备案,包括有字节,百度,商汤...... 创业公司有三家,百川,MiniMax,智谱,其他两家都是 19、21 年景立的,我们是最晚的一家,成立四个月后就拿到国家的注册备案。后来我们跟干系部门聊,才知道备案的 160 个模型里面有一半用的是百川开源模型来搭建。
去年在连忙地往前跑,团队在扩展、行业硝烟四起,到今年会创造每家都开始在找自己的定位和节奏,不管从文本的措辞模型到视频模型,各家都有更多的思考。虽然每次国外有新发布会,海内还是一阵狂欢,但现在不像去年有那种推背感,当时每天都有看不完的新信息、新论文,现在全体节奏跟去年完备不一样,本日能够很安静的把自己的竞争力在哪、内部如何定义胜利等做一个新的梳理。
张鹏:以是你给百川设定的节奏,是不是也有了明确变革?去年节奏佷明确,每个月都要在大模型上有进展,大略粗暴一脚地板油。今年的节奏是怎么设定的?
王小川:本日我认为大概从以一个月为单位来做,变成一个季度。不一样的地方在于,去年大家关注点在模型,今年大家开始看性能和本钱,磋商怎么实现运用打破。
去年 4 月份公司成立,我们提到「空想上慢一步,落地上快三步」。当时以为这么说大家会不会有误解,以为我们没有空想。我倒以为并不是这样,做超级模型或超级运用,两个超级本日依然成立,而且大家已经关注什么叫超级模型、超级运用,不但是拼谁能够卷快一点。
今年,我认为该当给大家交付的答卷里是对 AGI 本身更完全的思考,什么是 AGI?到达路径是什么?超级运用该当长什么样子?行业依然在空想主义和现实主义之间两派在辩论,是先往 AGI 走,还是先落地做运用?
张鹏 :这一年有哪些新知吗?当时做出来模型这件事本身就让人愉快,但目标实现之后,你肯定会看到一些新的寻衅和目标。
王小川:我能够更切身感想熏染中美之间的差异,美国在这个时期,可以看到它还是在有类似「登月」的技能狂想。比如像 OpenAI 7 万亿美元造芯片、研究可控核聚变,总之他们会把空想主义拉满。
海内的话,在这个领域追平到弯道超车后,空想怎么跟上?以前我们号称自己运用比美国落地快,但随着模型还在连续迭代,我们在运用上到底是能像之前互联网时期,一下子弯道超车,还是处于 follow 的状态?海内对付投资也好,行业也好,我觉得里面会有新的范式。
张鹏:大家的共识是这个时期在产生主要的变革,但是变革到底怎么发生,怎么落地?创造有越来越多的非共识和不愿定。
王小川:对,依然有很多非共识。去年到今年,非共识我以为依然没有减少。比如 Scaling Law 到底什么时候能够连续坚持,还是就会停下来?包括措辞大模型和 Sora 代表的视频模型之间的关系。ToB,还是 ToC?我依然还是有很多不同的不雅观点。
02视频不是提升智能的主轴线
张鹏:那我问问你,最近一年从美国、从环球的角度,看到 Sora、GPT-4o 的变革。你曾经表达不跟进 Sora,背后的逻辑是什么?
王小川:去年,我会认为大家以为大模型做对的第一个关键词叫「大」,以是已经被验证通的叫 Scaling Law。中间第二个词,大家开始逐步忽略,叫 Language。Large Language Model,措辞在中间扮演了本日通向智能最主要的一个角色。
当时做搜狗的时候,我们就有两个方向,自然交互和知识打算。知识打算就代表一种智能,自然交互是使得人跟它有更好的打仗,在自然交互里面会提到像语音、图像、视频。但是知识打算的话,中间核心的智能来自于措辞。大家提到说用图像或视频去增加智能,我是武断地以措辞为中轴做智能的。
但是如果做交互系统的话,会有声音和图像在里面。这次创业,我们会选择先把长板拉满,在智能上依然坚持措辞为中轴。昔时夜家提到 Sora 时,更多还在强调很炫。我跟比较厉害的学者聊,他也很震荡。但逐步回过神来,会创造如果我们把智能当成现在主要的一个不雅观点时,还是得环绕措辞中轴转,其他模态只是帮助运用落地交付更快。以是对百川而言,如果往 AGI 走,依然是要做智能,背后便是措辞,这个态度是没有变过的。
Sora 发布,大家 Happy;GPT-4o 发布,大家惊呼,交互上是很好,后来看 OpenAI 内部分享,提到还是要坚持做 texture intelligence,便是文本智能。
我们本日来看连接主义、符号主义,大家都以符号为中央来讲它的可阐明性。本日大模型核心是把符号主义的措辞,包括数学符号和代码符号,和 Transformer 做压缩连到一块。以是我的关键点是:不要忘却了智能跟符号主义之间的关系。
张鹏 :你刚才说 Sora 虽然让人非常震荡,让我们视觉受到巨大冲击,但它不是提升智能的主轴线,在你认为智能的最核心目标里,它是旁支,可以这么理解吗?
王小川:对,它是旁支,如果智能化的措辞是中轴,视频更多是外围,视频里智能性增加的难度可能是一百倍、一万倍,以是本日还没有技能能力和技能打破到能在视频里提升智能。智能是把不同事物之间相通规律授予一个名字,就像庞加莱所说的,数学艺术在于「give the same name to different things」——数学家眼里的数学之美是把不同的事物用同样一个符号来表达。
视频没有智力里的抽象能力,就像你让机器读一亿本小说,它也不会增加智力。智能不是说看的数据有多少,而是看数据背后所蕴含宇宙里的规律有多少。当下机器还是在人类聪慧的措辞里学习。
张鹏:以是某种程度上,如果我把视频去压缩再还原,它在这个环节里并不真正含有我们所讲的智能。
王小川:在本日的范式里,没有能力去通过视频去创造新的知识,去表达,都是做不到的。技能限定了我们通过视频去做这件事情。
张鹏:但是它很酷,对吧?以是可能很多你的朋友都会问你「小川你啥时候做(视频)?」你怎么回应他们呢?由于在当下,能做出来视频就很酷,就能拿到更多的投资,就能连续往前走,你为什么选择用非常明确的态度表达你不跟随这股浪潮。
王小川:由于我很清楚,我们这个时期往 AGI 里走,智能便是核心,以是但凡把 Sora 跟智能之间划关系,我以为这便是还不太懂技能。
张鹏:以是实在你实质选择的是在智能上「长个儿」,而不是横向的扩展。也充分印证了小川还真的是要 commit 到 AGI 这个目标上。那我们怎么解读 4o?由于我们也听到有创业者说,4o 这种统一多模态的办法,可能是接下来做大模型公司的必答题。如果说 Sora 是选答题,可以不选,但 4o 是必答题,这不雅观点你认同吗?
王小川:4o 在交互上能够通报更好的用户体验,4o 代表的语音交互,我把它分成三个层级的理解,如果你是要一个大略帮你提高效率的工具,让语音读起来更自然、更流畅、更省韶光,用 TTS(语音合成)加 SR(语音识别)也就够了。
如果我们把产品定义为只是提高效率的工具,都不用去聊智能。由于我认为本日 AGI 一大特点是:我们不是在造工具。我反复讲这个不雅观点,像之前一位行业大佬跟我聊,他说「你以为这个大模型行吗?7 位数乘法都不会做。」彷佛以为大模型没有智能。我就反问他说「你会 7 位数乘法吗?」他也不会。
因此判断模型不能以工具维度来看,实在智能的核心便是像人一样去思考、沟通、表达共情,以是在「如何像人」这一层面看,在交互上就要像人一样流畅地表达。这个条件下,我以为 4o 的技能能够支持它的产品形态。
再今后走,便是 4o 能有语气,能从对话里感知到你的焦虑,乃至影响到对话的内容,那便是更高的一个境界。4o 目前展现出来的能力,我认为更多是在「像人」上产生了产品的意义。但在统一建模措辞上,我们还是要评判它对智力本身有多大的提升。这个角度来看,我认为本日 4o 也没展现出这种目标。
张鹏:我创造你还是非常聚焦在智能这件事,包括你对 Sora 和 4o 的解读,你认为实在它们都不是在智能上发展的产品,它们还是能在某些场景里做出更好的产品,供应更好的做事,这实际上是智能的一个旁支能力。
王小川:对,但有用,我们要追求的便是 AGI 要像人,4o 做到的比我们更靠近。以是在措辞领域,我认为 4o 是我们这些智能公司要去做的必答题。
03小心「沿途下蛋」的代价
张鹏:最近一段韶光,我们看到好多产品开始投流了,开始有一定的用户量,小川你看到这些产品会不会焦急?或者我们换一个视角,现在大家都在说技能在持续的发展,我们都知道技能还不成熟,还要连续发展。但有一个思路叫「沿途下蛋」,在技能发展时,能做出来什么我就先做着练练手。
但选择在哪个时候要做产品和要做什么产品,你有自己的判断,由于我看那些挺热门的项目你都没有涉及,能不能跟我们分享一下,你在用什么逻辑约束自己,让你没有去选择那些你本可以做的事儿。
王小川:由于我以为当下大家有一个共识:一个创业公司也须要做超级模型,且做出超级运用。做个小运用不是创业的目的,它不能让公司活下去,或者说达到公司终极的一个义务。以是沿途下蛋要看目的是什么,是验证技能是否可行?还是希望它长成一个超级运用?
我自己在上一家公司做搜狗的时候,做过输入法,做过搜索引擎,可以说是下了三个蛋:输入法、浏览器、搜索引擎。以是在我定义里的超级运用,至少须要搜集 3000 万的 DAU(日生动用户),乃至一个亿。我们本日发布的「百小应」也好,其他家的产品比如「文心一言」等等,大多数在对外呈现模型能力,只是模型能力的呈现并不代表它就能成为一个超级运用。
而且下了蛋就得养,你沿途下一个两个三个蛋,乃至做成了运用工厂,末了反而可能把自己困住了,往里面无限投入资源。乃至如果你下了一个离超级运用很近的蛋,养到特殊大的时候可能会把自己都带偏,以是须要特殊谨慎,得充分去思考你的模型的超级运用究竟是什么?
我们在内部有对超级运用的定义,哪怕我们现在发出来一个模型,但不代表本日顺着这个道路去扩展模型,就可以做出超级运用。
张鹏:由于「下蛋」本身也要花费「蛋白质」,然后关键是下完了往后,如果真的孵出了一个小鸡,你还得养。这个事如果太多了,都是鄙吝械,你都要照顾,可能你终极的目标都会受影响。
王小川:以是大家乐意说下一个蛋,就一两个蛋,你别沿途下。这个事情对一个创业公司是承担不起的。
张鹏:刚才你也说到了,本日很难说你做的任何一个东西便是未来的超级运用,但同时你又不能永久不推运用。
以是你如何选择又要通向 AGI 的目标,又能下出合理的蛋的?这里面有什么标准和思考逻辑?
王小川:我以为要下一个蛋的话,首先是它要比市情上已有的方法要明显的好,能够直接落地;同时随着模型在连续增长,你的产品也要随着一起发展。有可能你会创造,随着模型的增长,你的产品没有随着一块发展,或者不须要发展,那你的产品就给模型挡住了。
以是本日的话,有可能你不是要下一个蛋,而是造一艘船。这艘船在本日要有广泛的运用;而且模型每涨一分,你的运用的能力也能连续发展。
这在某些领域是不成立的,比如 toB 领域里的广告文案撰写或者 AI 客服,可能用一个小模型就够了。大概这个蛋可以创造很大的收入,但是即便你成功,你之后还乐意投钱做模型吗?如果这个蛋空间有限或者对技能依赖有限,你就没有能力或意愿投资这样一个模型。
之前大家做 AI 的时候,大家都说自然措辞处理是人工智能皇冠上的明珠,那本日我会认为医疗是大模型皇冠上的明珠。由于医疗行业的需求是无限大的,模型再大,医疗都须要;以及医疗的智力密度是足够高的。
张鹏:以是你的意思是,如果你本日选择一个下蛋的标准,你会非常关注它是不是终极通向 AGI,便是模型的能力是要有发展的空间和需求的,且这个东西又能够在本日交付阶段性的比较闭环的做事。
而不是说本日找到了一个小市场,末了创造我对付 AGI 没有能力或者意愿去投入了。
王小川:对,这个东西既得有可行性,也代表了未来足够的高度。
04AGI 要造出一个高水平的年夜夫
张鹏:既然你认为医疗符合你的标准,那今年我们会在医疗领域看到百川智能的产品吗?
王小川:我们内部已经有了 demo,确实是符合我们自己的一个预期的。
我创造本日涌现了一个特殊抵牾的声音。比如我们跟外界沟通的时候,我们说要做 AGI,要做医疗。大家就会以为你只是做个 vertical,没有大的空想。但是如果我们说要造个年夜夫出来,他就会疑惑——能做到吗?彷佛太难了。
彷佛本日做 AGI 已经变成了一种叶公好龙的做法,便是提 AGI 的时候都特殊厉害,但是当真的碰到详细的比如说医疗问题,大家又都躲着走。一方面谈论 AI 要毁灭人类,一方面又以为 AI 没法在医疗里面有贡献。这是我以为非常非共识的一个点。
然后我们做医疗的话,会把它类比成无人驾驶。无人驾驶也是之前大家以为特殊难的一个题目,也有伦理的问题,也有可行性的问题,但是大家对无人驾驶也很看重。
医疗实在是一个比无人驾驶更有代价的事情,由于没有无人驾驶司机也能自己开车,但是人生病了没法自己看病。以是年夜夫的供给要比司机少很多,同时又跟生命康健高度干系,因此它的代价就足够大。
那剩下的情形便是伦理问题和难度的问题,那类比无人驾驶 L0-L5 的级别,医疗里面也可以划这样一个级别。
张鹏:自动驾驶里各个级别都是有明确的定义的,那医疗领域里的 L0-L5 是怎么定义的?
王小川:理论上,如果你是单点的信息,给出单点的决策建议,叫做 L1。
如果你是通过多样的数据网络诊断,又看电影、又看措辞文本,还有组合的输入;同时在输出的信息里是既有诊断的又有治疗的组合方案,就可以做到 L2。
我们认为本日医疗行业在 AI 加持之后的话,可以做到 L1-L2 之间,比 L1 好一点,但是离 L2 还有差距。
但是我们判断,以现在大模型的技能加上其它技能的引入,是有机会做到 L3 的,也便是在部分场景、乃至大部分场景里,机器能够自己做出长程的判断和决策。但是在关键的韶光点里面,还是须要年夜夫来做终极的决策。
因此,我们认为本日这一代大模型是可以做到 L3 的。在空想之中大家还会提到一个词叫 AGI,但是 AGI 是什么还是未被定义的。那我们认为 AGI 至少得有一个可以评测的定义。之前大家以为图灵测试无法用措辞分辨出人和机器了就可以称为智能,那本日我们对付 AGI 的定义便是如果你能造出一个高水平的年夜夫了,便是达到 AGI 了。
大家可能会以为年夜夫对付 AGI 来说太垂直了,那我想问大家一个数学问题:自然数和偶数哪个多?
大家的第一想法可能是自然数比偶数多,由于偶数是自然数的子集,每两个自然数就有一个偶数,对吧?但数学上不是这么看的,由于每一个自然数乘以 2 都能得到一个偶数,以是偶数是不会比自然数少的,用双射法就可以证明。
以是本日来讲,约即是年夜夫是 AGI 的一个子集,大模型所有的能力在年夜夫上都用得到,比如说推理能力、减少幻觉的能力、沟通能力、共情能力、多模态的能力、影象的能力。
这个时候我们认为达到了 L4 的水平。
再往下,其实在创业之前,我一贯很好奇生命的数学模型是什么。我们知道物理的数学模型已经被找到了;本日做天下模型的话,办理的是措辞的数学模型。再往下的话,我们还会去找生命的数学模型,像 AlphaFold 3、AlphaGo,如果跟大模型结合,也容许以构成一个生命的数学模型。那那个时候就可以做到 L5,也便是完备不须要年夜夫参与,从预防、诊断到干预,完备由机器完成,乃至末了超越年夜夫,我们叫做生命模型。
05医疗是通往 AGI 的「难而精确的事情」
张鹏:过去我会以为,小川对医疗领域有一些执着、充满激情亲切,这可能跟你原来的一些思维惯性干系。但刚才我听到的一点是,你认为医疗是通向 AGI 的那件「难而精确的事情」?
王小川:对,难而精确,且非共识的事情。
张鹏:OK,这个逻辑让我本日有一些新的认知。但是我还是想追问一句,这个行业里面的主体,或者说偏共识的东西,是做娱乐、效率工具。医疗很随意马虎让大家以为,怎么拆了一个很窄的垂直领域?这会不会给你带来很大寻衅?毕竟有那么多力量要说服,有很多技能要寻衅。你为什么没有选娱乐或者是效率工具?
王小川:娱乐、效率工具本身有它的共识。我们说效率工具是帮你省韶光的,娱乐是帮你杀韶光的。我以为人生很抵牾啊,一会要省韶光,一会帮你杀韶光。
张鹏:对,人家很自洽嘛,这边省完了那边杀嘛。
王小川:但我们做医疗康健的话,是能够帮你延长生命韶光。而且它是可以平行于省韶光、杀韶光的,一个独立的赛道。
张鹏:以是你叫加韶光。
王小川:对,给你加韶光。前段时候有个朋友说,在美国得到各种各样的能力、做事,本钱都在降落。比如说得到视频,以前看电影很贵,现在变便宜了。
在美国只有两个行业、做事,它的代价是越来越贵的。个中一个便是医疗做事,人的需求是无限多的,自古到今,医疗再多供给,人都有需求。其余一个海内没有,叫做成功学。这两个事情是越来越贵的,因此在所有赛道里面,医疗末了是有无限空间的行业。中国的医疗行业大概是十万亿的级别,在美国更多,是十万亿美金往上级别的行业。
张鹏:只是它集中度不足,是吗?相对分散,但总量很大。
王小川:分散是好事嘛,像以前电商都是很分散的,但末了有办法在中间形成更大的一个平台。以是我当时 2021 年把公司卖给腾讯的时候,说要做医疗康健,大家第一个问的是,你是不是要去做 AI 制药?我以为还是把它看小了。
我从研究生做基因测序开始就知道,医药行业在本日核心「医、药、险」三个环节里面,「药」在中间只是一个认知的环节。由于「药」须要很多临床实践,这个认知的得到并不是只在实验室里面拿小白鼠得到的,医药最大的难点是,必须用人做实验,年夜夫一定要参与这个环节,以是临床才是得到认知和做事的中央舞台。
之前药厂是集中的,但是年夜夫是分散的。本日年夜夫要参与到科研,他们既是临床做事者,也是科研事情者,因此在中国叫「得年夜夫者得天下」,患者也是求年夜夫,药厂也要去找年夜夫,但年夜夫供给的量非常有限。
我们本日做 AGI,核心便是通过知识密度扩大知识的供给。年夜夫的供给不是靠生产关系,像滴滴、美团帮你撮合下就够了的。就像骑手,有些人事情不顺利,一不愉快去当骑手了,但没法说一不愉快就去当年夜夫。这个供给是 AGI 主要的市场空间。
张鹏:这个阶段,智能能力如果能改变供给,一定是很让人愉快的。以是你现在很明确是要在医疗领域里造年夜夫了?
王小川:对,我们造年夜夫。这个很清楚,是我们主要的一个方向。而且造年夜夫,供给稀缺,需求巨大,有市场空间。以我对技能的判断,我认为近两年先做 L3,通向 L4 是有机会的。
并且本日医疗行业实在有后面的数据飞轮。由于大量的精准医疗,这样一个 know-how 的过程,是须要在有年夜夫在全病程管理中去不雅观察,然后网络数据,做这样一个生命模型。
这样的话,不仅是在造年夜夫,同时是通过造年夜夫之后,在做事的过程中间,去构建生命的数学模型,而不是只布局所谓的天下模型。天下模型是特殊虚的一个词,我们知道这个天下是熵增的、走向热寂的。
你布局一个东西末了等价于「不愿定的天下」,不如布局对生命的理解模型。由于在这里面,我们从本日 LLM 走向 AGI 到后面的生命模型,我们认为除了运用领域,对付技能发展也要有自己的脉络。
张鹏:嗯,生命本身是一个熵减的状态。
王小川:熵减的事情才能建模型,熵增的事情怎么建模呢?
张鹏:嗯,有道理,我以为说到这一点,答案已经呼之欲出了。
但我再追问一句,便是如何去定义一个好的 AI 年夜夫和一个不好的 AI 年夜夫?假定都是 L3 级别的年夜夫,由于毕竟 L3 就意味着还是要有人在里边,我们终极的结果可能也不一定能看得出来,这个「人」占比是多少。我记得上次我们在聊的时候,我们都在谈这个时期去把产品做好,很主要的便是如何去定义「演习集」和「测试集」,对吧?那什么是一个好的 AI 年夜夫的「演习集」和「测试集」呢?
王小川:首先讲,年夜夫是两个维度,一个是他的专业性,一个是他跟你沟通中间的耐心和共情。耐心共情对付患者是随意马虎去感触的,以是本日在线的这些平台,都特殊强调共情、耐心、供应快速的做事,这个不难定义。难点是它的专业性,专业性实在患者是没法看的。
以是第一个,它的演习集。我们知道所有的年夜夫都须要写论文,便是把他的认知,变成循证级别,从 case report 到后面的 RCT,临床双方实验,到末了的 Meta 剖析,荟萃剖析。这个过程,就已经把它变成了医疗行业认可的一个数据集,这是广泛存在的,从病例到论文到医学书本,乃至互联网上已经有的 case,这个演习集是足够的。
而测试集的话,既可以拿本日的这些论文或者医案作标准去测试。乃至往下在临床实验当中,看它究竟对你的治疗效果是否有提升,这是符合医学范式的。医学有它的一套医学统计和临床实验方法,来担保它的严明性。因此我们要遵照医学的统计规律来验证这个别系。以是一边从消费者出发,一方面符合医学的全体研究范式。
张鹏:我们能期待在今年看到这种 L3 级别的年夜夫涌现吗?
王小川:我以为按照我们现在的进度是有机会做到的。
实在去年我们了局的时候就提到医疗、年夜夫。然后在百川的时候,我还讲过创造康健和快乐。
我们的理念,随着我们 deliver 产品之后,大家都能看到了,AGI 即是年夜夫,但本日的大模型还只能做到年夜夫或患者的医疗顾问,给大家交付这样一个路径。之后当你造出年夜夫、有 AGI 之后,实在我们可以做所有的事情,这样能找到一个 TPF 的单点打破。
张鹏:我以为你本日最大的、吸引我的一点便是我们终于创造,有人在帮我们省韶光,有人帮我们杀韶光,只有你可能在努力给我们加韶光。
希望你把「加韶光」做好,我们都会给你充值。
本文源自极客公园