作者 | 张鹏整理 | 今夜科技谈

加速,狂奔,硝烟四起,是过去一年大模型创业浪潮展现出的一番景象。
有资源、有能力的腾讯,却显得「过于镇静」了。

2024 年 5 月 30 日,腾讯推出基于混元大模型的 App——元宝,它的产品设计很简洁,打开的第一屏,是一个搜索框,核心是先瞄准生产力场景,重塑信息的组织、交付。

这样的产品理念从何而来?一个做底层技能出身的团队,做大模型是首先是为了改造内部业务的事情流和产品。
以是对付做什么,不做什么,腾讯混元大模型团队有清晰的认知。
生产率工具容错率低,更磨练技能能力,进一步迭代模型能力。

对话腾讯混元刘煜宏做大年夜模型可以有深圳速度但不能跳步

对外鲜有高调发声,「水下」内部却将大模型摆在计策位置。
推出元宝 App 之前,腾讯混元大模型作为技能底座的角色,已经支持了腾讯内部靠近 700 个「客户」,并沉淀出一套平台工具和互助模式。
这让腾讯对后来将模型算法、数据、工程能力等技能能力「外化」有了信心,统统也顺其自然。

腾讯元宝发布之后,腾讯混元大模型卖力人刘煜宏收到一些反馈,让他感到惊喜,「一些好的"大众年夜众号内容已经被『遗忘』,但元宝挖掘出来,重新做了信息组织」。
「没有上帝视角」,用户需求越滚越大是产品最好的验证。

「一年后海内的模型能力将拉齐」的预判在本日被验证,再次证明了图快走捷径做大模型没故意义。
对付 OpenAI 的示范效应,刘煜宏说,即便后来者看到一条确定性高的路径,也得走一遍。
试过,才能跑得越来越快,缩短每一次追赶的韶光。
被问到之后的操持,刘煜宏说,多模态乃至全模态的理解和天生都是「必答题」,当下也会让模型在「多一些思考」、增强推理能力高下功夫。

大模型注定是一场长跑,「AGI 目前更像崇奉」,但将腾讯混元大模型能力在内部 700 个业务上用得好,是刘煜宏认为对付 AGI 的务实追求。
有远见但务实,也是混元团队在大模型上的天下不雅观对齐。

在近两个小时的直播里,关于腾讯的大模型思考,混元的做与不做,元宝将与腾讯生态如何产生联动等话题,刘煜宏为我们做了坦诚的梳理和解答。

以下是这次直播对话的实录,经极客公园整理后发布:

01 做大模型可以有

「深圳速率」,但不能跳步

张鹏:去年 9 月腾讯混元大模型正式对外亮相,前段韶光也发布了元宝这样一个比较AINative 的产品。
但外界总体觉得,腾讯比较沉稳,没有猖獗抢先手、也没有一下放出很多产品,感情一贯比较稳定?

沉稳的背后,腾讯在大模型上是若何的策略?

刘煜宏:实在是「外松内紧」。
外界看到不焦急,感知混元推出来比较晚,但坦白来讲,这是一个非常卷的赛道,我们内部的节奏是非常紧张的。

腾讯从计策上一贯将大模型和天生式人工智能,视为百年不遇的、类似工业革命一样的机遇。

对外产品上,去年 9 月推出了「腾讯混元助手」小程序,今年 5 月 30 日推出了元宝 App,(也推出智能体开拓平台——元器),但这些背后的底层能力实在我们做了良久,像广告大模型在 21 年就开始做了。
元宝 App 发布一个月不到的韶光里,更新了五六版,每一个小的迭代都办理了一部分问题。

去年我们没怎么对外发布产品,实在是内部率先用起来(大模型),比如腾讯会议、文档,微信心书的 AI 助手,包括它们在内很多内部产品已经在用了,除了 API 的办法接入,还有一些业务会做精调。
到目前为止,腾讯内部有靠近 700 个业务接入混元,基本上腾讯所有的(业务)都用。

腾讯内部近 700 个业务接入混元大模型|图片来源:腾讯

张鹏:OpenAI一声炮响让大家看到这个新的趋势,去年腾讯内部对付大模型是如何剖断的?当时做决策的真实情形是什么样的?

刘煜宏:GPT-3.5 出来前后开始做混元这个项目。
一些底层干系技能做得更早,刚才提到广告大模型在 21 年就开始做了,搜索干系的「推广搜」场景也做了良久,运行大模型的底座从一几年开始就在培植。

对外的产品节奏看起来体感很慢,由于一开始便深知这是一个长期的项目。
原来还说百年一遇,现在创造是几百年一遇的项目。
不是短期一窝蜂就能搞定,像做原子弹,只有一步一步积累,把底子打牢。

举个例子,做底层涉及到网络问题,没有网络、算力,怎么演习?钱能跟上吗?预算怎么投怎么收?等等,都得考虑。
我们比较复苏,对底层困难预估得足。

一年半前我们判断,一年后海内的几家大厂在大模型能力都差不多。
目前也认证了这个预判。
我们虽然压力大但有比较多的试验机会。

张鹏:在大模型上,业界大家都比较焦急,也有创业者认为这个时候快速跟上是第一目标,乃至可以基于开源模型做 post-train,由于开源模型「看」过的那些数据,没必要重新再「看」一遍。

刘煜宏:我们从来没想过这条路,一开始就决定冷启动,从 0 到 1 完备自研,是一条非常困难的路。

腾讯做产品有个原则,得自己验证一遍,连颜色、像素、排布的选择都是试验出来的,页面设计成瀑布流留存率就有多高?对男性用户如何?等等这些都是 ABtest 出来的。

OpenAI 过去几年走过的路,模型从 1.0 版本到 4.0 版本他是怎么走的?就算过程中你按他表露出来的一些技能路线走,该做的实验一定不能少。
比如也有很多超参数、数据配比要调,乃至中英文数据比例若何才是效果最好都要做大量实验,花了很多韶光在这里。

张鹏:打个比方说,下决心要给新时期生个孩子,不是说赶紧抱一个过来,是要生一个亲生的觉得。

刘煜宏:对,我们从一开始就武断了全自研路线,追求自研、可控度、安全。
从 0 到 1 自主探索,包括演习、推理的框架平台,模型预演习、精调、强化、怎么对齐,数据,投入了大量资源。

坦白来讲,大家都在看OpenAI的路线,但不是你按 GPT-4.0 的套路走,就能行得通。

张鹏:要从 0 到 1 走一遍、但要更快速地走一遍,而不是找个捷径只为了追上某个点。
那么设定的这个出发点是哪?

刘煜宏:如果说大模型,可能从 Transformer 乃至更早。

我们会设定一些目标,比如一开始对标 GPT-3.5,估量什么节点能达到 3.5 的什么水平,什么时候能在工程上追上。
坦诚讲,目前很多能力提升还真的是靠数据和工程。

目标是有的,但不能跳步。
不能看到 GPT-4o 出来了,创造多模态领悟做得好,就不考虑 GPT-3.5 了。
我们评测 GPT-4o 确实比 GPT-4V、GPT-4 Turbo 那些版本的能力都强。
但直接按 GPT-4o 路线走,估计大概率会失落败。

目前来看大模型怎么选择路线,还是一个实验科学,你得堆资源,人力,数据演习,当看到就这么一条路,那么选它有很大概率会成功,把他们探索的加速走一遍,而不是直接到终点等着说就按这个路线走。

张鹏:大模型技能变革非常快,一边挖地基、一边盖楼的觉得,这楼现在一下都盖到比方说 5、6 层了,统一多模态什么的全出来了。
压力会不会更大?还是说,打地基和不断盖楼的过程中,更有信心了?

刘煜宏:跑了一遍,当然更有信心。
你看到盖到 5、6 楼,不代表前面 1、2、3、4……楼就不须要,只不过你可以盖得更快,深圳速率一天一层楼类似这样,以是一定是要把从零到一的过程重新走一遍。

张鹏:你们的做法还是很严谨的。
煜宏你在腾讯多少年了?

刘煜宏:我 05 年加入的。

张鹏:20 年了,那你一定对腾讯的风格非常理解。
去年很多大厂积极地抢身位,腾讯好似不争不抢,但在内部挺较劲的。
这个是腾讯骨子里带的干事风格?

刘煜宏:我在腾讯一贯做技能。
坦白讲,做技能、产品是可以借鉴的,但也有个词叫「空中楼阁」,没有地基你就上不去。
这可能也是腾讯的风格。

别人用三年从版本 1.0 迭代到 5.0,你用半年走一遍,如果说产品和技能有参考,那么最大的参考意义在这过程中。
走一遍你会碰着同样的东西,这时候会理解,「哦,为什么是这样」,走一遍后也才知道,大概由于用户群、生态平分歧,其余一条路可能是更好的选择。

02 从需求中

「长」出来的元宝 App

张鹏:你刚讲很多腾讯内部的产品在用混元大模型了,能不能举几个混元给原有产品带来新的 Feature(功能/特性)的例子?

刘煜宏:最新的例子,微信心书里的 AI 读书;微信输入法 AI 帮助扩写;腾讯会议里的 AI 助手,能给晚加入会议的不雅观众总结之前别人讲了什么,把一次很长会议的会议纪要给摘出来。
还有腾讯文档里的续写;企业微信里的翻译帮助与外洋同事互换。
现在腾讯旗下的协作 SaaS 全都接入了腾讯混元大模型。

再早一点的例子,智能客服在内部最为普遍。
其实在用大模型之前,智能客服就做得挺成熟的,但大模型还能再提升 20%,这种程度的效率提升。

实在做了(大模型)产品之后,也帮助了自己很多,比如用 code copilot 写代码(涵盖前后端开拓,C,C++,Java,Go,Python 多开拓措辞)的采纳率有 30%,相称于 100 行代码有 30 行是AI写的,而且被采纳。
设计师设计 logo 时也用 AI 文生图来帮忙,每天千万级收入的广告业务的一些素材,就 是用 AI 助手来做的。
大模型对付降本增效起到很大助力。

张鹏:你刚提到,腾讯内部靠近 700多个产品在用混元大模型,算是混元的「内部客户」已经有 700 家了,那你怎么做事得过来?同时还得兼顾不断提高的技能。

刘煜宏:内部调用量大概将近 3 亿次了。
去年我们发布(节奏)慢,一部分缘故原由也是我们投了很多资源先做事好内部的「客户」。
腾讯干工作,对外开放前一定要先在内部打磨好,自己的狗粮自己先消化。

同时,腾讯确实有最完好的业务场景,办公协作、游戏、社交、推广搜等等。
在这些丰富的场景中,也能练兵,也能练模型。
精调、以及其他给产品的反馈,反过来又反哺到主模型里。
比如,会议总结、function call 等。

对付内部产品接入混元,我们供应三种模型来支持。

第一种叫全托管,给没有那么强研发资源的团队,他们提业务需求后,我们想办法把模型精调好,他拿走直接用;

第二种叫半托管,有些业务有自己的研发,也能做算法优化,我们一起共建,一人一半,他们搞不定我们再上。
最近两年「开源协同」在腾讯内部很盛行。

还有一种,我们把模型开放后就不管了,剩下的业务如果有须要,自己加数据、自己调。

我们去年也是花了大半年,逐步把几个模式跑通。
我们供应一站式精调做事,叫「混元一站式」,许可他们做各种创作、优化,内部根据需求调用资源,模型、算法、插件。

张鹏:三种模式占比如何?

刘煜宏:7 成旁边拉 API 就可以了,啥都不用管。
其余 3 成多少要精调,这个中拿走模型完备自己精调的会比较少,由于有门槛,我们一起参与的进展会更快。

张鹏:70% 的业务直接调用混元API,30% 要精调,哪些产品、业务要重点支持?这个选择权到底在谁,或者看业务部门谁更有影响力吗?

刘煜宏:这时候我们会基于两点考虑,一是繁芜度,投入多少资源能帮你办理问题;二是同等难度和投入的情形下,先考虑计策重点。

资源配置上,实在紧张看客不雅观需求。
目前 70% 是 API 模式就能搞定,用的是大模型的通用能力。
那就看什么场景用大模型的通用能力就可以办理,比如像娱乐场景这样容错度高的场景,没有强办理问题的能力也行。
但要做金融、医疗、法律等严明场景,不能有幻觉,通用 API 不一定搞得定,要专门精调,为严明场景做大量优化。

以是,第一是看用户选择。
第二,这个数据在不同阶段也会变。
最开始我们支持腾讯会议、腾讯文档时,扩写、润色、总结能力都是须要定制的。
一旦做好了,这个能力就能变成通用 API 能力,开放出来给往后接入的业务用,这时候就不再须要定制了。
比如给腾讯会议做好了,腾讯文档、腾讯邮箱也有类似的需求。

张鹏:把模型做好,这几种模式跑顺,做事好 700 家「内部客户」,是挺花韶光的,以是你们去年不焦急对外说,是在忙着办理做事内部的问题。

刘煜宏:最开始做混元,没想要做 ToC 产品,是要把根本模型打磨好,做事内部需求,这是我们原来的逻辑。

当我们在内部很多产品、不同场景里验证后,创造这个能力可以拿出来给大家用,以是去年 9 月份推出了「腾讯混元助手」小程序,由于以为在微信生态里也可以用。
但后来创造这样做也有不敷,比如利用时被谈天打断,没法持续地对话,它就没法成为一个好用的 AI 工具。
于是推出了 App。

全体过程里,我们不断地思考、调度方向。
从做一个底层模型、一个根本功能、平台做事内部业务,到后来创造,如果不探索原生AI大模型运用,不知道怎么跟业务更好互助,以是又提高了一步,从小程序,到 Web 产品,App 产品。

张鹏:市情上也有很多比较热的大模型产品,主打陪伴类等等,你们「元宝」做得比较大略,界面就一个框,当时是怎么思考的?

刘煜宏:选择现在这样的界面,还是想回归「用户到底须要一个什么样的AI产品」?

现在大模型的利用人群,学历较高、职场人士占多,以是偏事情和学习的场景更主要,娱乐属性也有,但主要性相对低。
相应地,我们的 slogan 也调度成,「轻松事情,多点生活」。
不是不做娱乐,也留了一些智能体在上面。
我们也有开放的平台——元器,上面能做很多智能体,角色扮演、陪伴等等。

先选择把生产力场景的用户痛点用 AI 搞定,信息搜索、写文档、想创意、知识获取、阅读等需求。
比如搜索场景,我们先做好信息搜索、大模型「阅读」顺畅,又改进了信息源的陈设,供应了又简洁又分层次的信息源,提高天生内容的可信度,规避大模型的幻觉。

后面环绕着搜索、阅读、写作、画画和创作等场景做好,这些被视为大模型的根本能力。

我们做产品常常说,做加法随意马虎,做减法难。
这是为什么我们一开始就用很少的东西,用一个 AI 搜索做,其余还有一个创造页面,上面有些智能体,目前并不多。
这也代表腾讯一个做产品的理念,小而精,做减法。
先瞄准能提升大家效率的、最有用的场景,把它做透。
我们希望提升信息组织、以及信息被找到的效率。

张鹏:为什么不做娱乐产品?是产品取向选择,做提升生产力更主要?还是从技能上来看,认为做娱乐对付技能提升不主要?

刘煜宏:不是说娱乐不主要,大家还是须要情绪陪伴的。
当下先选择事情和学习场景,第一个有选择的缘故原由。
第二个,当我须要陪伴的时候,AI 能给到什么样的帮助?角色扮演的产品有很多,但(模型)能力做不到那么好。
丁宁韶光,暂时只能做到这点。

张鹏:人们对「杀韶光」的事原谅度高,模型能力没那么好也能没准让用户乐意掏钱。

刘煜宏:对。
这是选择问题。
我以为选择娱乐场景这个目标,对目前大模型的这个阶段的发展不是很好。
基于对自己的认识和选择,先把技能能做的做好。
我们先把底层模型、根本的产品体验、元宝体系做好了,在此之上开放一些东西,就像微信,小程序,"大众年夜众号,都是生态。
那娱乐的事情就交给生态产品,QQ、游戏、视频、音乐,他们做娱乐场景比我们更善于。

张鹏:腾讯本身便是一个弘大的产品生态,元宝未来会跟腾讯的产品体系打通吗,比如微信?这方面有什么操持?

刘煜宏:我们跟微信团队一贯有互动。
比如元宝里用得好的东西想要微信,或者在微信里传个文件,能不能用元宝打开?这些互动,我们有磋商怎么做会更好。
但由于微信用户非常弘大,任何一点小改动,都可能影响上亿人的体验,以是也非常谨慎。

5 月 30 号元宝发布之后,外部解读元宝和腾讯生态产品的打通,有点出乎猜想。
我们确实会考虑与腾讯生态如何互动,但毕竟元宝还是一个很小的产品,还在考试测验阶段;其余,用户需求真的是逐步发展起来,才会变成所谓的计策,我们并没有上帝视角,还是基于用户的需求来考虑。

比如面对用户搜索的需求,我们要做一个什么样的信息检索,搜哪里?那我们有搜一搜、新闻、视频、音乐、企鹅号,包括公众年夜众号是一个很好的内容源,这是一个顺理成章、随着用户需求逐步出来的事情。

我们也看到很多创作者来说,元宝 App 里加入"大众年夜众号的内容源是一件非常好的事情,一些好的内容都被遗忘了,元宝还能把它挖出来,让它重新火一把。

但我们有一些更长期的目标,我们考虑的是,混元怎么支撑内部业务、做到何种程度。

张鹏:看来腾讯对自己哀求很高,就像你说的,如果没有吃过自己的狗粮,没有真正用起来,不太乐意让别人为我付代价。
但同时,这会不会降落了对外开放、快速迭代探索的可能性,让更多力量一起「共创」本身不便是一种「技能红利」吗?

刘煜宏:确实,让更多人进来,用户、开拓者、企业进来,一定会产生更多可能。
混元一方面是通过内部比较全面的生态体系来打磨、创新。
经历了内部的一轮洗礼,外部的需求会更游刃有余。
而且,任何一个东西,你拉长看,现在的进展可能会显得微不足道的,如果表面是个大海洋,先在湖里面练好拍浮再出去会做得更好。

同时我们也有混元 API 供外界用,个中混元 lite 的模型是直接可以免费利用,还有元器开拓平台,上面已经有很多开拓者做智能体,然后分发到元宝、QQ、小程序等渠道上面去用。

比如腾讯云的同事会基于做好的底层根本模型,做行业大模型,针对企业做做事。
这部分增长非常迅猛,免费模型的调用量、付费版都增长了很多,我们也要投很多资源来支持、优化。

03 AGI是崇奉,眼下的目标

是「让模型多一些思考

张鹏:你怎么看 Character.ai,一个以前不存在的产品形态在未来的发展空间,以及对付技能的哀求会是若何的?

刘煜宏:类似角色扮演的需求,我们在 ToB 的场景里也碰着了,比如类似智能客服的接待助手。
会见告它「你是谁」,但创造聊了几十轮之后,它可能就忘了自己是谁。

Character.ai 很火,我们做了很多用研,但末了选择没做类似产品,由于混元还是希望做一个(技能)平台,我们会往它所须要的底层能力去做,长文本、长窗口的能力、影象能力等。

这些角色产品的探索可能更适宜腾讯的产品团队,他们来做会有更多想象空间。
其余,从腾讯的角度看,也还是希望做底座能力和产品,把空间开放给市场上更多创业公司。

张鹏:以是你目前看得不是产品,而是产品背后须要的能力和长期有没故意义。
我可以理解为,混元的目标是做好技能底座,为腾讯丰富的产品条件和用户场景,做好AINative 的准备?

刘煜宏:一定程度说可以这样说。
但混元团队也没走过大模型这条路,也要探索原生的运用和创新。

就像刚提到的元器,我们做好底座,创作、事情流平台,业务部门和用户拿来做智能体,实现各种各样的想法,这是我们的定位。

我们做探索的同时,把底座的技能能力打造好,这是有门槛和难度的。

张鹏:有人说对海内的大模型来说,GPT-4o 是「必答题」,Sora 是「选答题」,哪些在你们看来是技能趋势上的必答题和选答题?

刘煜宏:GPT-4o 和 Sora 背后代表的多模态乃至全模态,对我们来说都是必答题,但一样平常没做出来之前,也不会对外说。

做与不做,可能只是一个特定资源条件下的选择问题。

腾讯为什么必做?由于腾讯业务场景完好,社交、游戏、内容,每个模态跟我们场景都有契合点,不做的话,可能某个方面未来会缺。

一个东西将语音、文本、图像、视频都能搞定,全模态进,全模态出,须要一些韶光和资源。
大概每个阶段会有不同重点。

张鹏:从混元的角度,你会怎么定义 AGI?

刘煜宏:目前 AGI 作为崇奉比较得当。
业界没有一个对 AGI 量化的定义,连定性都未必定的出来。
可能从业务的角度,可以定义一个可以操作实行的 AGI 目标。

但我最近在思考,让模型轻微多一些思考,这件事挺主要的,由于可能天生的质量会比过去高很多,我们接下来可能会花更多韶光在这里。

ChatGPT 最早你问他一个问题,他立时吐字回答问题,有点像「快思考」或者说没有思考的直觉反应,但它可能怎么也想不出来一个空城计。

让模型做AI搜索,或者其他让它多加几层思考、强制他多做思考的动作,有助于进一步提高模型的推理能力。

7 月 1 日,「腾讯元宝」AI 搜索能力升级,上线深度搜索模式,可从深度和广度两方面,供应更构造化、更丰富的回答,并可同步天生内容大纲、思维导图及干系人物事宜梳理。
|来源:腾讯

张鹏:有没有对须要达到的能力范畴的定义?

刘煜宏:过去几年里有句话比较盛行,有多少人工就有多少智能。
以前智能是靠人堆起来的,人类对齐有很多数据要标注,乃至 OpenAI 也靠高质量的标注。
坦白来讲,目前要做到(绝对的)AGI 没有那么乐不雅观。

务实一点看,针对腾讯内部那么多的业务,如果大模型能把他们的需求都搞定,那可以说它具备了比较好的智能,这可能是通向 AGI 的最佳实践,工具或技能从来都是知足人的需求。

目前面对腾讯内部靠近 700 个业务的需求知足情形,如果让我打分,一部分场景合格,但是大部分坦率来讲只是暂时够用,要用得好,还有很多努力要做。
在这个过程中探索 AGI,也可以算我们的一个实践路径。

当然我们也有比较前沿的科学探索,腾讯 AI Lab 在做等等,要花点耐心,把运用和研究结合起来,一起做。

张鹏:想象一下混元在三年往后会什么样?

刘煜宏:这个年代哪能定三年目标,由于技能曲线仍旧陡峭,边走边看。

要说做产品,很像写小说,有的时候不是一开始就想好结局。
比如 Sora 出来之前,做文生视频切实其实定不会走那条路。
GPT-4o 之前,大家以为 4V 很牛了,变革太快了。

我们投了很多资源,做好长期战斗的准备。
让我想,三年如何讲做成功了,可能无非是 AI in all。

张鹏:不是一下投进去,而是所有的东西都被AI逐渐渗透进去。

刘煜宏:大模型要改造流程和产品。
我希望不用到三年,腾讯产品和技能平台都用大模型做了改造,让大模型帮大家做降本增效的事情,这是我对未来的所想。

本文源自极客公园