“追赶 OpenAI ”,是智谱AI CEO 张鹏对外分享时屡次提到的一句话。
坦然面对不如别人须要勇气,但公开承诺要追上行业标杆,则须要实力。
那么,才成立四年的智谱 AI 凭什么?

积淀与机遇,一个也不能少

众所周知,智谱 AI 是清华系出身的学院派创业公司。

1996 年,清华大学打算机系知识工程实验室申请成立,这是人工智能下的一个分支,以机器学习、数据挖掘为紧张研究方向。
2006 年,实验室开始做工程化,并推出了 AMiner 系统。
在这之后的 10 年里,实验室一贯进行工程方面的研究。
2016 年旁边,随着干系技能的成熟,实验室开始进行运用转化。
直至 2019 年,智谱 AI 成立。

刚成立的智谱一方面延续之前的研究,一方面积极进入市场,将实验室积累的科技成果和产品系统用于实际项目并商业化。
如果没有意外,这个路线会持续一段韶光。
但企业计策方向每每是由技能本身和行业运用领域的热点共同决定的。

被时代选中的智谱 AI成为 OpenAI超越 OpenAI

2020 年景为智谱 AI 发展的一个关键拐点。

GPT-3 的发布给了大家非常明确的旗子暗记,即大型模型真正具备了实际可用性。
但“要不要跟进大模型”却是一个问题。

创业公司计策做错一次便是致命的,虽然此刻看来当时智谱 AI 的选择没错,表现之一便是风投态度:此后智谱 AI 每年都能拿到数亿融资,目前单 2023 年已累计融资额达到25亿公民币。
但当时情景下,这依然是一项极其冒险的事情,创始团队无法轻易决定。

那如果跟进大模型呢?智谱 AI 也并非完备从零开始。
创始团队多年积累,大模型可以看作是团队积极学习和扩充高速挖掘的延续。
因此,在反复纠结和谈论后,智谱 AI 终于决定全面投身大模型。

但在通用大模型和行业小模型的选择上,智谱 AI 虽然有参考 OpenAI,但还是决定坚持走通用大模型这条路。

一是技能方面。
张鹏认为,行业模型必须建立在通用模型的根本之上,否则独立发展的行业模型由于商业规模较小,其智能水平将受到明显的限定。
此外,行业模型很随意马虎被通用模型的能力快速超越。

将行业模型建立在通用模型之上有好有坏。
好处是可以节省根本模型预演习的本钱和周期,享受到根本模型本身智能提升好处的同时,降落被通用模型取代的风险。
坏处则是通用模型本身在行业场景中可能并不完美,因此须要专业知识积累。
就像一个专业学校毕业的研究生要成为行业专家也须要韶光来不断积累专业知识和履历。

因此,在张鹏看来,行业模型被看作是在当前技能水平和韶光点下为办理行业运用需求而催生的一种形态。
虽然这种形态具有历史意义,但从更长远的角度看,它只是一个阶段性的产物。

二是社会方面。
模型之以是不能节制行业专业知识,部分缘故原由是由于行业知识的数据不完全或受到限定。
这与过去十多年大数据和人工智能发展面临的问题类似,即存在数据孤岛和数据壁垒。
这就导致了模型的能力必须迁就数据。

这个问题的根源不是技能层面的决策,而是与当前社会发展、信息化水平、行业信息化程度、数据安全以及各种制度和机制有关的问题。

对标 OpenAI,相似但不同

同属通用模型赛道,是外界要拿智谱 AI 和 OpenAI 比,还是智谱 AI 自己要和 OpenAI 比?实际上,两者都有。
海内须要有“自己的 OpenAI”,而智谱 AI 的目标恰好也是 OpenAI。

“OpenAI 公司一贯在领跑,以是最直接的办法是先达到他们的水平。
”张鹏说道。
在技能选型和解决方案方面,智谱 AI 选择直接对标 OpenAI:

但智谱 AI 并没有完备依赖 OpenAI 的技能履历。

GPT 的问题是把稳力是单向的,无法充分捕捉 NLU 任务中高下文词之间的依赖关系。
虽然在 GLM 模型的早期研发阶段,GPT-3 已经非常出色,但智谱 AI 选择从底层算法事理入手,将自己的理解融入进去,终极须要通过实验和运用来验证。

张鹏及其团队在 2017 年开始关注预演习模型,那时候大模型还没有涌现,市情上紧张是一些几千万数量级的、相对较小的模型。

团队创造,当时的模型只管架构相似,但在算法框架方面存在许多不同,比如 encoder-decoder 模型、auto-encoding 自编码模型、auto-regressive 自回归模型等。
虽然古人考试测验通过多任务学习结合它们的目标来统一不同的框架,但由于自编码和自回归目标在实质上的不同,大略的统一并不能充分继续两个框架的上风。

2021 年,智谱 AI 开始自主开拓演习框架,动手演习一个拥有百亿参数的模型,并在年底启动了千亿模型的演习。
智谱 AI 的 GLM 模型将自回归天生和自回归填空集成,即将 NLU 任务构建为包含任务描述的填空题,这些问题通过自回归天生来回答。
通过将这两种模式的优点结合起来,模型不才游任务中能够完成更多任务。
因此,这个预演习模型的显著特点是单一模型能够处理多个任务,从而用更低的成本来支持更多上层任务。

大模型紧张被关注的是性能。
这里的性能有两方面:一是各种评估指标上的表现,乃至是人工评估标准,二是推理效率和硬件根本本钱。
这两个方面的性能都非常主要,前者涉及到了模型的潜在极限水平,后者则涉及到了模型的可用性,即在家当链中利用该模型须要付出什么本钱以及预期的回报是多少。

对付 GLM 模型,智谱 AI 除了在办理精度、稳定性和效率上进行改进,包括算法层面的修正、算子和加速方法的选择,还有工程层面的决策,如商业集群和网络的选择以及性能优化。

在早期某个阶段,模型演习的质量与数据之间存在密切的关系。
为此,智谱 AI 也花费了一些韶光和精力来获取更高质量的数据。

智谱 AI 内部有一个专门的数据处理团队,进行数据洗濯和过滤,将数据进行校准和转化等事情。
智谱 AI 演习大模型的数据紧张来自公开数据、团队多年来积累的数据、交流或采购互助伙伴数据。

作为一个中英双语模型,GLM 数据处理的繁芜性略有增加。
在模型演习中,文本须要分割成 token,只有一种措辞的话,token 的数量是固定的,但如果涉及另一种措辞,token 的数量就会显著增加,全体扩展的词汇表会更大。
其余,中英文稠浊数据的处理也是一个问题,模型须要在中英文上都表现良好,有效地跨措辞事情。
对此,智谱 AI 紧张在设计演习算法以及丢失函数的打算等方面做了些额外事情。

对付“高质量的中文语料相对英文语料较少”的不雅观点,张鹏并不赞许,“中文用户的数量环球最多,互联网用户也最多、生动度也高,为什么中文数据的质量会有问题呢?”张鹏反问道。

他认为,问题的根本在于数据的封闭和存在获取壁垒。
可能有大量的中文用户在互联网上没有贡献高质量的内容,也可能是他们贡献了高质量的内容,但这些内容不是公开可获取的。

智谱 AI 内部常日采取逐渐改进的方法,更方向与自己之前的版本或标准版本进行比较,追求模型的性能,特殊是某一方面上,能有明显提升。

可以看到,智谱 AI 的产品更新频率很快。
在今年 3 月首次推出 ChatGLM 基座模型后,智谱 AI 又在 10 月尾将其迭代到了第三代。

ChatGLM3 采取了智谱 AI 独创的多阶段增强预演习方法、集成了自研的 AgentTuning 技能,并瞄向 GPT-4V 做技能升级。
此外,智谱 AI 还推出了可手机支配的端测模型 ChatGLM3-1.5B 和 3B,支持包括 Vivo、小米、三星在内的多种手机以及车载平台,乃至支持移动平台上 CPU 芯片的推理。

此外,对付神经网络算法的核心问题,业内在过去的六七年里一贯在探求更高效的技能架构来办理打算和智能水平问题。
这是一个倾向理论和根本性研究的长期事情,智谱 AI 更多通过投资或支持清华大学等根本性研究团队和机构,也会参与做前瞻性或预期性的研究事情,参与到这一命题的研发中。

做大模型,没有好走的路

在 2020 年之前,智谱 AI 紧张从事算法研究事情,研究是团队的强项,这部分事情相对随意马虎。
但到了 2021 年,情形有所不同。
研究出身的创始成员在如何将研究成果落地上,开始碰着许多问题。

详细来说,团队缺少处理大规模数据和资源项目的履历,因此,许多事情实际上须要靠智谱 AI 自己摸索,一边学习一边实践。
实际上也是如此,比如智谱 AI 演习 GLM-130B 时,全体研发和演习过程统共花费了 8-9 个月的韶光,但终极稳定的演习实在只花费了不到 2 个月的韶光,团队大部分精力都用在了适应性调度和系统调度上。

不仅如此,早期的智谱 AI 并没有现在的“吸金”能力,资源缺少是其起步阶段不得不面对的问题。
2021 年,智谱 AI 决定真正开拓一个拥有 130 亿参数的大模型,这个项目的投资金额已经超过首年条约金额。

如何办理资源困境?用张鹏的话便是到处“化缘”。
团队与国家科研机构及超算中央等联系,得到支持、渡过难关。

对内,智谱 AI 一贯把稳在研发过程中合理分配和利用资源。
尤其在初期,团队更加节约,租用打算资源后就以最短的韶光完成事情,只管即便让每一分钱花得物有所值。

团队须要在不摧残浪费蹂躏资源的条件下,找到演习速率、精度和稳定性的最佳平衡点。
这是一项繁芜的事情:提高精度可能会使演习过程随意马虎出问题,从而耗费额外韶光和资源;反之,如果捐躯精度以保持稳定性,终极的结果可能不如预期。

虽然当时缺少可供参考的标准,但智谱 AI 根据一些开源项目和技能报告,设计了适宜自己需求的办理方案,包括稠浊精度、流水线事情办法、加速方法等等。
这种自定义的方法帮助智谱 AI 提高了资源利用率,也还须要一些韶光来完善。

众所周知,英伟达的 GPU 价格上涨,直接导致硬件本钱增加。
原来 100 万元的硬件如今须要花费 1.5 倍乃至 1.6~1.7 倍的价格来购买,大大提高了研发和运用本钱。

在办理硬件本钱问题方面,智谱 AI 选择用国产芯片替代,对模型做了各种国产 GPU 等硬件设备的适配。
自 2022 年初,GLM 系列模型已支持在昇腾、神威超算、海光 DCU 架构上进行大规模预演习和推理。
张鹏表示,国产芯片虽然在价格和性能方面可能距国外芯片有些间隔,但在某些特定运用处景,尤其是在边缘打算等领域是可以知足需求的。

通过高效动态推理和显存优化,智谱 AI 表示,比拟伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,自己的推理速率提升了 2-3 倍,推理本钱降落一倍,每千 tokens 仅 0.5 分。

“一旦你经历过一次,积累了全面的履历,不管是碰着了问题还是进展顺利,你都会从中学到很多。
你将不再是一张白纸,而是会根据以往的履历不断改进和完善。
以是那个时候的困难紧张在于缺少履历,一旦积累了履历,后续的事情就会变得更随意马虎。
”张鹏总结道。

商业化?开源?

作为一家从研究机构出来的公司,智谱 AI 要比 OpenAI 更关注商业化。

OpenAI 总部位于美国硅谷,其科技创新生态系统和组织办法与海内有很大的不同。
OpenAI 更多是依赖成本支持积累大量资源,如微软等大公司供应资源、人才和数据,以快速实现目标。
早期的 OpenAI 拥有足够的资源,因此并不太关心推理本钱等问题。
当然,OpenAI 现在也开始关注加速和优化等方面的平衡问题,并且更多地依赖微软等公司来进行商业化。

而智谱 AI 则是从成立之初便就在思考商业化的问题,“带着客户入场”也是被成本看好的成分之一。

智谱 AI 的商业化路径紧张面向企业和机构的 B 端用户。
一方面,创始团队在 B 真个履历比较多。
早期在学校的科技情报剖析、数据挖掘等研究经历帮助智谱 AI 打仗到了海内的科研机构、科技型企业、互联网企业,乃至一些国际顶尖科技企业,他们也成为智谱 AI 的首批客户来源。

另一方面,向 C 端用户收费是比较有寻衅的。
智谱 AI 只为 C 端用户开拓了一个免费利用的 APP 工具。

不过在张鹏看来,无论是 ToB 还是 ToC,两者终极都会领悟,即做事企业终极也会影响到终端用户,因此两种选择实质上没有太大的差异,只是路径优先级的不同。

在创业早期,智谱 AI 不会强制自己去接繁芜的客户需求,由于这些需求很可能让团队陷入个中无法自拔。
“更繁芜的问题须要暂时搁置、等到能力更成熟时再办理。
”智谱 AI 会坦诚自己的能力在什么水平上,在该水平上可以创造什么样的代价。

智谱 AI 也不会特殊限定目标客户。
张鹏表示,这一轮由大型模型引领的 AI 技能改造比上一代技能强大得多,具有更广泛的通用性,供应了巨大的创新空间,会影响到很多乃至之前意想不到的领域。

张鹏举了一个民航的例子。
民航翱翔掌握行业利用国际标准的数据报文来体例翱翔信息,编码办法非常晦涩难懂,专业人士有时也难以理解。
为了减少通信数据量和解决带宽等问题,业内常日会压缩数据,在实际利用时再将其还原。
之前,企业须要弘大的团队手工编程将这些数据翻译成可读格式,非常繁琐。
但将这些数据输入后让 AI 阐明,AI 能理解八九不离十。

在 IT 行业,与商业对应的便是开源。
Meta 无意打开了大模型开源的“潘多拉魔盒”,影响了很多大模型厂商对付“封闭还是开放”的选择。

“我认为开源和商业化并不抵牾。
事实上,已经有许多成功的开源和商业化项目,如 Linux、Hadoop 等,这些项目都表现出色,以是这两者并不互斥。
”张鹏说道。

目前,智谱 AI 已经开源了 ChatGLM3-6B 模型、多模态 CogVLM-17B 和智能体 AgentLM 等能力。
开源对智谱 AI 来说紧张有两个好处:一方面,开源社区紧张依赖社区成员的共同努力和影响,项目开源后可以吸引更多的人利用,从而提高项目的质量和成熟度;另一方面,企业供应中文语境下的模型和技能,能在环球开源项目中发出中国声音,同时也能够学习和借鉴国外的前辈技能和履历,这种跨文化的互助和知识共享有助于推动全体领域的发展。

“在相称长的一段韶光内,开源和商业化版本会并存,而且它们并不抵牾,而是相互促进、形成良性循环。
”张鹏说道,“开源在保障生态多样性方面扮演着重要角色,而商业运用则关注稳定性、安全性和生态的持续性。
只要能够建立良性循环,这种并存的格局将持续存在很永劫光。

不过,虽然开源是免费的,但企业商业化还是须要一些本钱的,资金能力不同的企业须要在本钱和质量之间寻求自己的平衡。
厂商则须要为不同预算范围的客户设计不同的办理方案和产品,并考虑不同的定价策略,从而利用户的本钱降落。

“现在更须要商业化人才”

智谱 AI 和 OpenAI 的团队构成在某种程度上是相似的,OpenAI 研究团队紧张来自天下顶级大学,而智谱 AI 的团队紧张来自清华大学。

在智谱 AI 早期,团队构建比较大略。
最初的团队起源于实验室,由一些老师、学生以及工程师组成。
研究职员和科学家在实验室里带领学生一起事情,研发新技能。
然后,工程师将这些技能转化为系统和运用程序,而少数商业职员与客户互动。
初期,商业化事情也由工程师或研究职员来担当,他们在多个领域兼职担当不同的职责。

智谱 AI 组织架构的发展是渐进式的:从内部研究开始,然后逐渐扩展到工程、系统平台、运用和商业化等领域,各部门之间不是独立的实体,而是相互协作、信息流畅的整体。
这种紧密的团队协作办法减少了信息通报的丢失,使团队能够更高效地应对快速变革的市场需求。

现在,智谱 AI 已经有大约 400 名正式员工,个中约 70%从事研发事情。

管理方法上,智谱 AI 与一样平常的互联网企业相似。
每个人都有自己的日常任务,但当须要集中精力处理某些事情时,如客户交付、产品开拓或技能研究,公司就会从各个团队中选择适宜的人卖力。

团队的卖力人在全体团队中发挥着管理和折衷的关键浸染,他们的职责包括确保各部门之间的高效协作。
比如,在一个主要的商业化项目中,卖力人的角色涵盖了项目从研究、开拓到终极的市场推广的全体生命周期,这须要团队中的博士研究员、科学家、分级经理、工程师、系统专家和运用程序开拓职员等人的共同协作。

同样,在研究性项目中,卖力人也须要折衷不同层次和专业领域的团队成员,以确保项目的成功。
无论是商业项目还是研究项目,都须要各方面的知识和专业技能的有机结合来办理繁芜的问题和推动项目取获胜利。

随着公司的发展,智谱 AI 的团队构成也在随之变革。
在早期,智谱 AI 要办理很多研究性问题,因此紧张集中在研究团队。
发展中期,团队增加了工程方面的人才,以优化模型的研发和演习,须要办理系统和运用干系的问题,并将运用推向市场。
现在,智谱 AI 的团队更加须要商业方面的人才。

“大规模模型的商业化是一个新兴领域,须要面对一些独特的寻衅,尤其是在教诲客户和应对客户的各种问题时。
”张鹏说道。

在张鹏看来,大模型时期的商业化人才须要具备强大的学习能力来快速节制新技能和观点、须要有一定的技能敏感度、精良的沟通能力和解决问题的能力,还要有具备市场洞察能力,以便制订有效的推广策略。

对付当下智谱 AI 的主题是将大型模型家当化并落地运用。
这一阶段哀求更广泛的技能和角色,技能方面紧张包括以下:

数据剖析师:整理、剖析和处理大量数据,以确保数据的质量和有用性,以供模型的演习和运用。
提示词工程师:这是一个新兴的角色,专注与大型模型进行高效沟通,以产生客户所需的数据和回应。
这个角色可能不须要深入研究和演习模型,但须要懂得如何有效地利用模型。
在特定领域或运用中的专家:能够为各种行业和领域供应个性化办理方案。

“这个时期对 IT 行业来说既是幸运,也具有寻衅。
由于技能变革如此之快,你必须保持高效地不断理解和深入研究新技能。
本日节制的知识在短短一个月内可能就会变得过期。
”张鹏说道,“持续学习是一项非常主要的任务。

结束语

目前,大家对大模型技能的认识参差不齐,这也导致了落地上的一些问题。
比如有的客户对这项技能不太理解,不清楚厂商在做什么,因此会根据他们的理解提出很多问题。
而也有客户则认为他们非常理解这项技能,因此会期望过高,并设定更高的目标。
实际上,大家须要在一个相对合理的范围内达成同等。
这也是张鹏最近分享的缘故原由之一。

比尔盖茨曾说:“无论对谁来说,640K 内存都足够了”。
然而,现在随处可见大内存的手机。
未来,对付任何人来说都很难预测。

在张鹏看来,AIGC 未来发展会很像云打算的轨迹,成为根本举动步伐,而不是互联网生态下的运用。

“在互联网运用中,有很多并行存在的运用,每个运用专注于特定场景。
但根本举动步伐领域的情形不同。
根本举动步伐的特点是随着规模的增加变得更加集中,资源的利用率越高、整体性能更高,产出投入比也更高。
因此,根本举动步伐须要规模效应,大型模型也具备这种特性。
”张鹏阐明道。

但在当前的本钱和回报条件下,根本的通用模型仍须要足够大的数据、足够低的本钱、足够多的打算能力来进行演习。
因此,未来可能会涌现几家公司将通用模型的智能水平提升到一定程度,其他公司在此根本上做行业模型和运用的情形。

谁能终极成为通用模型的“大家长”?这个问题还须要留给韶光来回答。

本文节选自《中国卓越技能团队访谈录&架构师特刊》

大模型风行一年多,创业新秀们都有哪些故事?实际落地中,软件产品中的 AIGC 能力又如何?本期《中国卓越技能团队访谈录 &架构师特刊》中,LeptonAI、智谱 AI、Dify.AI 和京东云言犀团队深度分享了他们的创业思路和产品履历,来自网易、百度、广推科技等企业的技能专家,也深入磋商关于 AIGC 编程、算法及运用等话题。

现在识别图中二维码或点击《中国卓越技能团队访谈录&架构师特刊》即可下载电子书,查看更多、更详细的精彩内容!

其余,在今年 9 月份的 QCon 环球软件开拓大会(北京站)中,张鹏曾作题为《ChatGLM:认知大模型与运用初探》主题演讲,完全幻灯片下载:https://qcon.infoq.cn/202309/beijing/presentation/5432

下一站 QCon 也将连续探索 GenAI 和通用大模型运用探索、AI Agent 与行业领悟运用的前景、面向人工智能时期的架构等方向。
想要参加这场技能人的年终盛会?现在报名即可享受 7 折优惠,购票立减 ¥2040,详情可咨询票务经理 18514549229(微信同手机号)。
12 月 28-29 日,上海·中优城市万豪酒店,期待见面!