量子位 | 公众年夜众号 QbitAI

没想到,在ChatGPT爆火后的一年里,竟然涌现了一个隐蔽“Boss”——

量子位获悉,百度、360等互联网大厂均已开始基于昇腾支配AI模型;而知乎、新浪、美图这样全速推进AI业务的公司,背后同样涌现了华为云昇腾AI云做事的身影。

明面上,大模型带动了N卡炙手可热;但另一壁,国产算力供应者中的头部企业华为也浮出水面。

假如没有AI算力大年夜模型这场战役我们可能胜不了

故意思的是,上述提到的玩家,目前展现的共性也非常明显:无一例外都是有场景的互联网玩家。

大略阐明,便是这些公司在大模型变革之前,基本都在各自的行业中有稳定的业务生态,也有核心的商用场景。

毫无疑问,他们须要更快更高效让大模型引擎迁徙改变,可以更快产生最直接的代价,云算力是最得当的选择。

海内算力市场,悄然生变

解题就得从大背景展开,海内算力市场的供给和需求,正在产生方向性变革。

首先是资源的供给,也便是供应算力的市场,涌现了变革。

从去年开始,海内市场就涌现了“N卡难求”的情形。
为此英伟达轮番推出特供版GPU,在算力和功率上几次再三缩水,但还是受到限定。
最近才有风声的HGX H20和两款新的GPU,也被曝可能推迟到明年2月或3月才能发布。

一系列算力供给缩水动作,使得海内市场上已有的英伟达系列显卡进一步稀缺,算力一个月内涨价50%乃至100%已是常态。

据《经济参考报》先容,由于算力资源持续紧张,海内算力做事公司如汇纳科技,已经在11月中旬拟将所受托运营的内嵌英伟达A100的高性能算力做事器算力做事收费同步上调100%。

与此同时,海内互联网厂商因大模型连忙增长的算力需求,又加剧了这种紧张的局势。

先是海内大模型数量激增,10月份统计数据显示,海内已发布了238个大模型。

每一个大模型背后都意味着海量算力的投入,综述《A Survey of Large Language Models》显示,650亿参数大模型LLaMA,在2048块80G A100上演习了21天;而700亿大模型LLaMA 2,同样用了2000块80G A100演习。

然而,AI算力需求还会持续上涨。

据OpenAI测算,自2012年以来,人工智能模型演习算力需求每3~4个月就翻一番,每年演习AI模型所需算力增长幅度高达10倍。

△图源OpenAI

显然,随着AI成为环球家当的增速引擎,算力作为背后的驱动力自然关注不小,乃至涌现了“谁能争抢到算力,谁就更有先发权”这样的说法。

一方面,如果算力跟不上,无法搭上AI这班快车,直接面临的结果便是在竞争中落于下风,乃至可能被行业抛弃。

360公司创始人周鸿祎曾经谈到,公司如果没有搭上ChatGPT这班车,很有可能会被淘汰。

与之相反,如果及时跟进潮流,公司就能凭借已有场景,快速在行业竞争中得到上风。
像是一度裁员12%的美版头条BuzzFeed,在宣告和OpenAI互助利用ChatGPT帮助创作内容后,股价一度暴涨119%。

另一方面,算力的充足与否,又直接决定了拥有AI技能和产品的公司,能否供应长期稳定的做事,从而在这场竞争中拥有先发权。

纵然是在这场潮流中霸占主导话语权的OpenAI,也面临算力紧张而无法知足用户需求、被迫将用户“拱手相让”的问题。

例如前不久,ChatGPT涌现了几次流量过大、做事器承载不下导致运用相应崩溃的情形,导致国外用户争相涌向谷歌Bard和Anthropic的Claude 2;付费订阅产品GPT-4,同样由于做事器流量爆炸而涌现“停息订阅”的情形。

但当下算力受限的情形,导致传统互联网企业要想快速跟上AI大模型干系的业务,无法再单单依赖“买卡”这一条路。

毕竟光是等待算力龙头如英伟达发卡的韶光,很可能就已经错过了这一波风口。

比较之下,有场景的互联网玩家,一旦有得当的算力,就能更快接入AI大模型干系的业务,从而在这场竞争中得到先发话语权。

在这样的需求下,像华为云这样的国产算力玩家,再度成为海内互联网厂商们关注的工具。

作为有算力、能供应云做事、最早适应大模型打法的云厂商之一,华为云究竟为何能在一众算力供给者中脱颖而出,为有场景的玩家们所看好?

为什么是华为云?

在行业调研中,行业玩家们对大模型时期的云做事,有4大普遍性诉求:

算力可持续高效长稳大略易用开放兼容

而之以是选择华为云,从其“对症下药”的技能细节就能管窥一二。

其架构由下至上,包括AI算力、异构打算架构、AI框架、AI平台、大模型、工具链几个层级,由此构成一个算力充足、高效稳定、低门槛广生态的云底座。

1、算力可持续

可持续的算力能从最根本上缓解行业玩家们的算力焦虑,同时也是大模型快速炼成、运用落地的基本保障。

在这方面,华为云打造了贵安、乌兰察布、芜湖3大AI云算力中央,供应3大主节点及30+分节点,支持AI算力即开即用。

昇腾AI集群也在今年全面升级,集群扩展至16000卡,成为业界首个万卡集群。
它可支持万亿参数大模型分布式演习。

此外在保障算力资源合理分配方面,华为云支持资源弹性伸缩,可根据业务需求实际情形,自动增加或缩减做事器实例或带宽资源,可在保障业务能力的同时节约本钱。

2、稳定高效

先来看稳定性。

由于大模型演习过程比传统分布式演习更繁芜,导致演习所需打算集群规模空前增加、涉及器件数量每每在百万/千万级别。
如果单器件发生故障,就可能导致集群演习中断,且故障缘故原由定位定界繁芜。

这就使得当前大模型演习更随意马虎涌现故障,演习韶光被拉长。

以Meta的OPT-17B演习为例,理论上在1000个80G A100上演习3000亿个单词,须要33天。
实际演习却利用了90天,期间涌现了112次故障。
个中紧张问题是硬件故障,导致手动重启35次,自动重启约70次。

△OPT-175B意外中断情形

在这方面,华为云昇腾AI云做事支持裸金属集群进行大模型演习,无虚拟化丢失,并行演习效率提升100%。
从处理器、算子、框架、平台全链路垂直协同优化,主力场景性能是业界平台的1.5倍以上。

以盘古大模型(2000亿参数)在2048卡上的演习为例,实现了30天演习不中断,长稳率达到90%,断点规复时长掌握在10分钟以内。

此外华为云还实现了千卡预演习故障自动诊断规复,增强智能运维工具能力,实现分钟级信息获取、2小时定界、24小时供应办理方案。

△华为常务董事、华为云CEO张安然

再来看高效性,这是场景玩家们的急迫需求。

但是千亿参数大模型在演习中须要大量的梯度、参数等进行同步,集群很难实现线性加速比。
即,增加了一倍的打算集群规模,但是打算量无法同比增加。
比如:

1024卡集群:打算和通讯比例为7:32048卡集群:打算和通讯比例为4:6

华为云昇腾AI云做事通过模型+集群的稠浊并行策略,让模型切分更加平衡,从而实现集群靠近线性加速比。

1024卡集群:打算和通讯比例为85:152048卡集群:打算和通讯比例为80:204096卡集群:打算和通讯比例为70:30

以及在演习本钱方面,华为云昇腾AI云做事利用CAME优化器,相较于业内常用方案可节约50%内存用量。

要知道,大模型的海量参数会导致演习时内存花费空前增加,进一步导致演习本钱升高。
CAME优化器专为大模型演习而来,得到了2023年ACL精彩论文奖。

3、大略易用降落开拓门槛

如今ChatGPT引爆的大模型趋势已经全面铺开,来自千行百业的玩家们都急迫想要快速将大模型接入自己的业务中。

但是大模型开拓又是一个繁芜的系统工程,从头开始自己摸索会影响落地速率。

以是云做事厂家们纷纭推出了大略易用的开拓工具。
比如华为云供应了全链路工具链,云化免配置、开箱即用,可实现5倍速开拓大模型。

它包括大模型开拓工具套件,可自动化、半自动化数据工程,效率提升3倍,5分钟快速构建运用开拓。

调试调优部分包含1400+算子沉淀,30+可视化调优支配工具;供应丰富的API能力,可调用盘古大模型100+能力集。

还能将范例模型迁移效率提升到2周内搞定,实现主流场景自主迁移。

4、构建开放兼容生态

末了,并非所有场景玩家都须要从头构建大模型。
选择在已有根本大模型上进行微调或者直策应用,是更加降本增效的方案。

那么对付开拓者、行业玩家而言,有更多选择就很主要了。

基于这一点业内需求,华为云上线了百模千态社区,企业和开拓者能直策应用业界主流的开源大模型,如Llama、GLM等。
同时聚合数据集、模型、实践等10万+AI资产。

为了知足开拓者的不同偏好,昇腾AI云做事已兼容TensorFlow、PyTorch、RAY、Caffe等AI框架。

进入昇腾AI云做事百模千态专区,仅需3步即可开拓自己的大模型。

基于如上云做事能力,华为云已经给业内诸多玩家供应了大模型使能做事。

比如美图仅用30天就将70个模型迁移到了昇腾,同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速,AI性能较原有方案提升了30%。

昆仑万维和华为云签署计策互助,双方将在华为云昇腾算力领域展开全面深入互助,致力于打造企业专属模型,支持企业级AI运用,持续赋能千行万业运用创新与场景落地。

△华为云CTO张宇昕

在当前算力稀缺、资源不敷的情形下,这些场景玩家选择与华为云这样的云厂商联手,来快速增强自身“AI硬实力”。

而这种大背景之下,也涌动着当前的家当趋势:

技能创新的曲线开始趋于平缓,商业创新的曲线开始发力。

个中,增速最快的,自然是有场景、有业务的玩家。

场景玩家如何把握AI落地机遇

ChatGPT发布一年以来,AIGC已行至下半场。

上半场,国内外掀起一股根本大模型技能争锋浪潮,“百模大战”态势之下,呈现出一批AI初创公司。

这些公司或节制底层AI架构根本、或有搭建上层AI工具的履历,依赖技能发布了不少有创意且吸睛的产品,融资更是拿得手软。

然而,随着干系技能逐渐从开疆拓域走向稳定成熟,AIGC家当也涌现了新的变革。

下半场,AI技能公司开始追求家当落地,不少初创公司更是在寻求扩大生态圈的办法。

比较之下,有场景的互联网公司,通过不雅观察AIGC技能上风,依托生态上风、加上算力根本,就能快速扩大影响力,进而在公司中取得话语权。

在这种情形下,技能和场景玩家的身位也在悄然发生变革——

技能玩家,须要“拿锤找钉”,面临进一步扩展技能生态和产品场景的难题。

虽说这些玩家已经具备了成熟的根本大模型或工具链技能,但技能仍旧须要找到场景,才能进一步稳定出圈。

比较之下,场景玩家成为了“拿钉找锤”的一方。

依托已有场景需求和稳定用户生态,这些玩家只需将AIGC技能融入业务,就能进一步实现降本增效。

然而,即便是AIGC技能趋于成熟确当下,想要快速跟进也并非易事,除了底层的算力搭建以外,大模型所需的演习和加速等技能也并非就能“一挥而就”。

在这样的下半场态势中,像华为云这样底层算力、AI干系技能和平台、生态三者齐备的海内云厂商,在场景玩家的发展中进一步起到了催化剂的浸染。

底层算力上,华为云依托自研的昇腾处理器打造的超大规模AI集群,已经由4000卡升级到16000卡集群,能支持万亿级模型演习,不仅速率更快,演习周期也更稳定;

AI干系技能和平台上,除了AI算力之外,华为云还为开拓者供应了完善的工具和资源,办理了AI大模型支配从演习、加速到不同框架适配这些难题,进而基于已有的研发履历,给厂商供应运营所需的技能做事;

AI生态上,华为云已经与150多家伙伴、200多家客户,共同构筑了20多个行业大模型以及400多个AI运用处景,加速行业智能化升级。

以是,在当前国际大环境下,有场景的玩家,只须要借助像华为云这样的云厂商供应的技能做事,就能快速将下半场大模型机遇变成红利,而华为云也能给海内的互联网企业供应更多选择。

现有的趋势,也能解释这一点。

美图首个懂美学的AI视觉大模型发布当天,股价单日上涨21.28%,随后更是受到海内图像编辑工具行业的广泛关注;

拓维信息发布的交通CV大模型,如今已在高速公路稽核等行业场景得到运用,这1年一来股价上涨了129.44%……

显然,这些玩家基于自身已有的业务,再依托云厂商供应的大模型和算力,就能快速将场景势能发挥到最大上风。

但无论选择什么类型的云厂商、做出若何的判断,海内互联网企业都依旧须要回到当前的大环境下,结合客不雅观形势做出判断。

在国外算力购买愈发困难确当下,面临新一轮AI竞争趋势,如何让算力像水电一样即取即用,是所有海内企业都应该要思考的问题。

事实上,如今中国的算力水平实际上已经位居天下第二,占环球市场比重达25%,从2017年到2022年的复合增长率达到48.8%。

当更多的企业乐意投资算力、交易算力,就能推动算力家当进一步降本增效,加快算力向现实生产力转化。

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态