作者 | 连冉编辑 | 靖宇
2023 年是大模型的元年,2024 年将是 AI 超级运用的爆发年,「一定要有真正贴近用户,贴近场景,让用户觉得到好用、必须用的超级运用才能进一步推动 AI 发展」,在 12 月 16 日举办的极客公园创新大会 2024 上,印象条记董事长兼 CEO 唐毅提出了上述不雅观点。
2023 年,随着 ChatGPT 引发 AIGC 热潮,印象条记在这一年开始将 AI 的能力由功能开释为做事,全面赋能自己软硬件生态:
4 月推出了自研的大措辞模型「大象 GPT」,并推出「印象 AI」;8 月,完成「印象 AI 2.0」迭代(供应专属模型 Adaptive Self Model,并为稠浊支配演习和调优 AI 路由);9 月,硬件产品 EverPAPER 支持大象 GPT,打造了 AI 智能硬件的产品品类。在业界看来,大模型的运用上,目前普遍存在一个「不可能三角」的困境,即难以兼顾通用性、可靠性和经济性。
面对这个「不可能三角」,唐毅指出,C 端和 B 端分别有不同的寻衅。对 B 端而言,事实验证性是一个关键寻衅,如果它的靠谱程度不上升,就很难去办理一些 B 端关键场景的问题;而对 C 端而言,用户可能对模型的经济性以及逻辑推理和呈现能力哀求会很高。
在考虑大模型的「不可能三角」(通用性、可靠性和经济性)时,须要从多个角度来看待模型和运用厂商所面临的寻衅。唐毅提到,在开拓 AI原 生运用时,无论是模型厂商还是运用厂商,都须要综合考虑六个关键要素:用户、场景、交互、模型、数据和载体。
而为理解决「不可能三角」困境,印象条记正探索一种「1+N 稠浊支配」的技能方案,通过 AI 路由进行任务分配,既发挥通用大模型的多步繁芜推理能力,也利用专有模型的经济实用和准确性。此外还要综合考虑用户、场景、交互、模型、数据和载体六大要素,以实现「无处不在的 AI 界面」,适应不同场景和需求。
以下是唐毅在极客公园创新大会 2024 上的演讲实录,由极客公园整理。
01 用户对大模型的担忧有一个不雅观点我先提出来,本日上午 Robin(李彦宏)也提了,不同高朋也都提了:2023 年是一个大模型之年,2024 年一定是 AI 的超级运用之年,一定要有真正贴近用户,贴近场景,让用户觉得到好用、必须用的超级运用才能进一步推动 AI 发展,这是我本日演讲主要的核心不雅观点。
中国现在有 200 多家公司在做根本模型,非常热闹,大家投入了非常多的韶光、资金、人才,有很多进步的同时,也面临同质化竞争的问题。
一个比较范例的问题是留存率不足。我们看一些公开的数据,不管是原来有运用+ AI 的产品,还是有大模型加运用的产品,留存率都不高。虽然模型很多,但让大家想起来说我每天都在用,我离不开它了的「真正的超级运用」,还是很少。
以是有个问题便是,大模型和这一代新的天生式人工智能势必会带来本色性的商业和社会的变革,但是它是不是正在带来呢?
现在一个相比拟较客不雅观和实际的情形是这样的,用户想用的时候,会存在比较范例的一些担心:
第一个担心是隐私的担心,是不是我问模型的所有问题模型都知道?会不会我问它的问题它就记下来了,演习到模型的大脑里面去了?第二点是专业能力的问题,它是不是能够详细地帮到我一些专业问题?它的幻觉问题怎么样了?第三点是利用便捷的问题,现在要利用大模型产品真的有那么方便吗?看起来彷佛无处不在,但是真正利用起来彷佛又会以为没有那么方便。真正用起来会进一步产生三个问题,一个觉得它没有那么聪明,或者说话没在点上,或者真正有一些核心的知识并不理解;还有一点是没有那么靠谱,幻觉的问题还是挺明显;其余确实是不便宜,利用不是很便捷。也便是说大模型,特殊是大模型的运用看起来很近,用起来还是有点远。
02 大模型的「不可能三角」从这一点引入的话,我们会以为这里存在一个不可能的三角,这个不可能的三角是基于通用性、可靠性和经济性之间的不可能三角。不可能三角这个观点,代表三者之中只能得到其二,难以得到全部。这意味着在大模型的实际运用中,我们很难在同一韶光知足这三个方面的哀求。
从逻辑上讲,模型参数越多,呈现能力、逻辑推理能力和高下文理解能力就越强。然而,仅仅通过扩大参数或优化模型和算法是无法完备办理问题的。
一定程度上,大模型具有更强大的呈现能力、逻辑推理能力和高下文理解能力,这些能力与模型一次性能处理的 Token 数量和遵照指令的能力密切干系。然而,随着模型规模的扩大,其经济性和可靠性可能会受到影响。可靠性包括专业知识、领域能力和事实验证等方面。
从其余一个角度来讲也便是说,大模型能不能真正在可阐明性、安全性和事实验证等方面都做好可能存在很大的问题。就大模型运用而言,现在哪怕便是终端用户和它聊几句天都会感想熏染到这三个方面的「不可能三角」。
在这三角里面,C 端和 B 端都分别有不同的寻衅。B 真个话,比较大的问题是它的事实验证性如果不强,它的靠谱程度不上升,它就很难去办理一些 B 端关键场景的问题。C 端而言,用户可能对模型的经济性以及逻辑推理和呈现能力哀求会很高。
唐毅认为是有方法破解大模型「不可能三角」问题的|极客公园
在考虑大模型的「不可能三角」(通用性、可靠性和经济性)时,我们须要从多个角度来看待模型和运用厂商所面临的寻衅。
这些寻衅包括选择得当的载体,载体在哪里?我们到底是用一个很熟习的原生运用,或者移动运用中的 AI 能力,还是我们该当去到某一个平台上去用它的插件,比如 GPTS 插件等等。
数据的利用办法是什么?数据上我们到底是通过 prompt 跟它聊?还是像一些运用的处理办法,把一些文件上传给它?还是真正用我们自己的数据做一定的模型演习?
场景上,是在什么地方能够办理哪些问题?该当跳出我现在的运用处景,跳出我现在的熟习的运用?还是该当留在里面?
这些都很难决定。为理解决这些问题,我们须要采取一种不同于以往的思维办法。
这个中一个很主要的点是,在开拓 AI 原生运用时,无论是模型厂商还是运用厂商,都须要综合考虑六个关键要素:用户、场景、交互、模型、数据和载体。
那么,它们之间的关系是什么?
如果大略一点来看,它们之间关系串起来是这样的——用户在某一个场景下须要办理一个什么样的问题,通过什么交互能够更符合用户的需求和场景特点。
在这个场景或者这个需求的链路上,若何通过模型,通过什么样的模型,什么样的模型支配,在什么载体里面办理这些问题?是插件?Web?Desktop?移动端?而在这个过程中,所有产生的数据,这些数据的问题又怎么办理?怎么支配?怎么运用?哪些给模型,哪些不交给模型?
这六个元素将是持续须要考虑的,我们印象条记在这方面的思考,随着技能的发展,基本上每两周更新一次。比如 GPTs 涌现的时候我们创造,载体彷佛迅速从移动端或者传统运用跑到大模型平台上。又比如说 ChatGPT 刚刚涌现的时候,有人说,未来统统的交互都变成自然措辞的交互,你跟它说话就可以,但是到底是不是这么一回事?这是否真的是未来的趋势?
03「无处不在的 AI 界面」先从交互来说,我们不雅观点是交互和唤起该当是无处不在。
我们先看一个范例 LUI(措辞交互界面)对话。先来看看条记里有哪一些影评,然后来讲讲《触不可及》的电影怎么样——这个讲述的回答完备是通过挖掘条记里面的内容得来的。利用的信息是基于用户授权的,不会用于演习或调优模型。(印象条记将推出基于用户个人条记和知识库问答的产品,真正实现打造个人的知识助理。)
另一个例子是 Copilot 性子的交互。这里有一篇关于 AI 视频制作的条记,用户可以哀求 AI 总结一下这篇条记里面有什么内容?条记里面有哪些 AI 对视频制作的改造可以拿来分类?AI 可以挑出条记内容,并且同步回答用户的问题。它是自然措辞界面和传统 GUI 界面(图形界面)的结合,右侧的 Copilot 是赞助驾驶,主驾驶还是在传统 GUI 界面上,主副驾驶之间是可以相互指引、辅导的。
在实际事情场景中,如果用户本身便是在一个文档界面进行编辑,比如要写一个采访提要,写采访提要之后,还想让采访提要中间一部分再多阐明一下。这种利用场景下最不须要的便是自然措辞,用户只须要在传统的界面上操作就可以了。这是一种 in-context 的交互办法。
这些例子依次是从纯粹的 LUI 到纯粹 GUI 过程,该当选择在那个场景下和那个用户的情形下最适宜的一种交互办法,我们把这个称之为「无处不在的 AI 界面」。
第二个元素,场景和载体。不同的事情和场景须要不同的载体来实现最优的生产力事情流。
传统意义上来讲,这些功能常日在原生的移动、桌面或 Web 运用中产生。现在通过大模型平台,我们可以通过 API 和内容文件调用来实现这些功能。
这当中总会有一个问题——到底该当在传统运用上实现这些功能,还是在大模型平台上实现?还有一个成分是存在很多不同设备——我们须要在各种设备、大模型平台(如 GPTs 类平台)、大模型新推出的原生运用产品,以及传统移动运用之间,找到得当的办理方案——该当在什么地方办理问题?该当在该办理问题的地方办理问题。
我们来以方案一次旅行为例,这当中范例的流程包括网络、整理、排版、运用、行动。
我现在在微信"大众号里阅读一篇关于山西旅行的文章,然后转给我的印象条记,它就可以帮我收藏在条记里面。这个场景一定先从微信开始,由于这个信息在微信"大众号里面。
紧接着我们打开印象条记,通过 AI 助理来整理内容,标好标签,并且和其他的旅游条记进行关联。由于条记里还有两篇其他的条记,可以自动把它关联上,那么当我想要方案山西旅游的时候,这三篇条记都是干系的,可以通过 Copilot 形式展现出来,帮我更好地理解目的地。
然后我连续在印象条记的原生运用当中排版,这个排版很主要,由于很多的公众年夜众号文章存进来之后不利于阅读,排版也没有优化,也没有目录和很清晰内容标注。我们可以通过 AI 进行有效重新排版,利于阅读。
然后方案 7 天行程,可以在原生运用内通过 AI 助理来问,也可以到一个大模型平台上面用插件对话,它的这个方案不是用网上的公用的语料和信息来方案,而是会专门根据所须要的场景来进行方案。
然后我们可以在大模型平台通过其他的插件,比如说某一个旅行平台的插件来进行机票酒店的安排。我们也可以同时通过印象条记的插件反响到我们的日程表里面,反响到我们的清单里面,同时让印象条记的微信助理提醒行程。
这个方案本身可以在微信里进行,可以在原生的运用里方案,也可以在大模型平台上方案。
唐毅详解印象条记在大模型上的探索路径|极客公园
这里边的逻辑是什么呢?是要去找到「最适宜的」场景和载体的合营点。如果你要做一个超级运用,不要试图仅仅在一个平台,或者仅仅用一种交互,或者仅仅选择一种载体,而是要让载体和场景移动、变革、流动。
然后我们来谈谈模型,我们认为要办理经济性、通用性、可靠性的「不可能三角」,就要有非常不一样的支配。这里不是越大越好,也不是越专越好。
先说一下印象条记自研的大模型,我们开始比较早,很早就成立了人工智能研究院并开始 NLP 方面的研究,现在知识类的专有模型拥有百亿级别的参数,基于 1 亿多人群的利用行为,进行了 4 年研究和演习而得出的。
再说一下数据,数据是一个非常敏感的问题,首先,公有通用的语料虽然很丰富,通用性很强,但是专业性不足。
像印象条记这样的专有模型演习厂商会基于演习到一定程度的基座模型进行进一步的演习和调优,这个过程中用到的是公有的专用数据,也便是知识类的数据或者其他场景下的专有数据,比如说交通类的数据、金融类的数据,目的是增强知识和降落幻觉,印象大模型便是这样演习出来的。
但个人的数据怎么办?个人的数据能不能用来演习大模型,或者乃至演习小模型?一个最根本的原则是 - 不经用户明确授权,用户的任何数据都不会被用于任何形式的处理 - 不管是调优、索引还是其它。印象条记是不会拿个人的数据来演习的。那么,怎么让模型处理数据?一个方法是用户明确授权。在这种情形下,我们会通过用户授权认可的 RAG (Retrieval-Augmented Generation) 能力来处理数据。也便是提前对数据进行向量数据库类的索引和处理,让模型帮助剖析数据,同时确保隐私和安全得到保护。
智能体是下一个 AI 的发展和运用的主要方向,印象条记的模型演习也是基于很多的这种任务型数据和繁芜任务流程进行的,以及须要多步处理的数据来演习的。
04「稠浊模型」是答案大模型不可能三角的问题,也便是通用性、可靠性和经济性的问题,怎么办理呢?
我们的「印象 AI」提出的破解不可能三角的独特方法是稠浊模型方案,它结合了印象条记自家研发的轻量化大措辞模型「大象 GPT」和其他大措辞模型。这种稠浊支配的办法与 MoE(稠浊专家模型)有相似之处,但它们之间还是存在明确差异的。稠浊支配具有一定联邦属性,紧张通过 AI 路由进行任务管理和任务分配。
当收到一个提示或需求时,AI 路由会对这个提示进行评价和判断,并确定任务是分步推理还是一次性办理。如果任务属性与专有模型演习语料更靠近,AI 路由会选择仅利用专有模型,由于这样更经济、更靠谱。如果任务须要多步处理和多次推理,涉及不同模型的能力,AI 路由会将任务分配到不同的模型上进行处理。在这种情形下,任务调度能力变得尤为主要。
印象条记作为一款为大量海内和国外用户所熟知的产品,具备一些独特的上风。这些上风包括弘大的用户根本、丰富的私域数据、强大的交互履历、精准流畅的场景载体以及基于智能体的自研模型。此外,印象条记采取了独特的稠浊支配架构,以办理大模型在通用性、可靠性和经济性之间的平衡问题。这种稠浊支配架构有助于实现模型和运用的持续发展,为用户供应更优质的做事和体验。
通过这些上风和特点,印象条记能够为上亿用户供应下一代的超级运用,知足他们在不同场景下的需求。我们希望在 2024 年能够跟用户一起用印象条记打造持续进化的第二大脑,也希望 2024 年的印象 AI 能够成为 AI 超级运用的种子选手。