AI大模型正在引发新一轮的“算力焦渴”。

近日,OpenAI刚发布的o1大模型再次刷新了大模型能力的上限。
比拟上一次迭代的版本,o1的推理能力全方位“吊打”了GPT-4o。
更精良的能力,来自与o1将思维链引入进了推理过程。
在o1对问题“一边拆解一边回答”的过程中,“环环相扣”的思维链让答案也变得更加“靠谱”。

思考模式的升级,也意味着更大的算力需求。
由于模型事理是在LLM演习额外添加了RL(强化学习)的Post-Training(后演习),这意味着一次推理和演习所需的算力将再次增加。

“AI研究中碰着的最大困难便是短缺算力——AI实质便是暴力打算。
”华为副董事长、轮值董事长徐直军此前总结道。

AI时代做事器厂商能否打破薄利的命运

于是,近几年科技大厂对AI根本设不断加大投入,除了英伟达股价不断升高,卖“AI铲子”的AI做事厂商们也在本季度迎来了翻倍的古迹增长。

并且,随着AI算力下一步的需求增长和根本举动步伐下放,做事器厂商们有望凭借AI赚得越来越多。

厂商们古迹的“高歌年夜进”,是做事器与AI深度结合的结果。

个中在AI演习环节,做事器大厂们纷纭采取不同办法加速全体AI演习过程,让异构打算的AI做事器,成为一台高效的AI演习任务“分发机”。
另一边,在办理算力硬件紧缺的问题中,AI做事器厂商也结合大型做事器集群的运营履历,落地了各种让英伟达、AMD、华为昇腾、Intel等厂商GPU混训大模型的平台。

伴随着对AI从演习到硬件优化的深入理解,越来越理解AI的做事器厂商也在从原来卖硬件组装的身份,提升着在AI家当链的代价。

个中,聚焦到智算中央培植层面,不少做事器厂商已经根据AI需求调度了AI做事器集群的硬件根本举动步伐。
并且,随着对国产算力芯片的深度结合,基于AI做事器厂商自己定制的办理方案正在广泛落地。

另一边在软件层面,更懂AI的做事器厂商也在开始挖掘AI在根本举动步伐中的生产力属性。
伴随着做事器厂商推出的AI大模型、Agent,做事器厂商与AI运用客户业务的结合也愈发紧密,从而进一步得到更多软件层面的办理方案收入。

毫无疑问,AI时期的变革也改变了全体算力载体的行业逻辑。

AI做事器厂商们正在以各种办法为用户带来更密集、更高效的算力供应。
在当下的“算力焦渴”时期,AI做事器厂商正在成为愈发主要的“卖水人”。

AI行业,“卖铲子”的先赢利了

AI大厂们的加速投入,让“卖铲子”的AI做事器厂商开始赢利了。

根据IT桔子数据显示,截止到9月1日,AI干系上市公司整体还是亏损居多。
个中,15家盈利的AI上市公司累计净利润为27.8亿元,亏损的19家累计净额为62.4亿元。

AI尚不能让行业实现整体盈利,一个缘故原由是AI巨子们仍处于加速投入阶段。

据统计,今年上半年,海内三家AI巨子(BAT)在AI根本举动步伐上的成本支出总额高达500亿元公民币,比去年同期的230亿元公民币,增长了一倍多。
环球范围,随着亚马逊在上季度增长了18%的固定成本开支,再次进入了成本扩展周期。
微软、亚马逊、谷歌、Meta等美股“Mag7”们,也达成了连续加码AI的共识。

“对AI投资不敷的风险,远超投资过度风险。
”谷歌母公司Alphabet首席实行官Sundar Pichai显然非常激进,并不认为目前是投资泡沫。

而借着加大投入的风口,供应AI根本举动步伐的AI做事器玩家们“大赚特赚”。

个中,环球老牌做事器厂商惠普和戴尔在AI时期迎来了“第二春”。
根据惠普最新表露的古迹(2024三季度)显示,其做事器业务同比增长35.1%。
戴尔上季度财报显示(对应2024年5月—2024年7月),其做事器和网络业务营收同比增长80%。

同样在海内厂商中,遐想在最新一季财报中提到,受AI需求增长,其根本举动步伐方案业务集团季度收入首次打破30亿美元,同比增长65%。
浪潮的中报数据显示,公司实现归属于上市公司股东的净利润为5.97亿元,较去年同期增长90.56%。
神州数码这边,其归属于上市公司股东的净利润为5.1亿元,同比增长17.5%,旗下神州鲲泰AI做事器实现收入5.6亿元,同比增长273.3%。

古迹超过50%以上的增长,是AI做事器大规模落地的结果。

除了云厂商,运营商是AI做事器的紧张需求方。
自2023年开始,运营商们加大了对AI算力的布局。
个中,电信和移动对AI做事器的需求增长了一倍以上。

同时,基于智算中央的需求也在快速推动AI做事器落地。
根据Intel旗下AI芯片公司Habana中国区卖力人于明扬在2024环球AI芯片峰会上的分享,近三年来大约有50多个政府主导的智算中央陆续建成,目前还有60多个智算中央项目正在方案和培植。

兴旺的AI做事器需求,改写了全体做事器行业的增长构造。

根据TrendForce集邦咨询近期发布的一份报告显示,在今年大型CSPs(云端做事供应商)对AI做事器的采购下,以产值估算,估量2024年AI做事器产值将达1870亿美元,发展率达69%。
作为比拟,一样平常做事器的估量年出货量增长仅为1.9%。

未来,随着CSP逐步完成智算中央的培植,AI做事器还将会随着更广泛的边缘打算需求,进一步加速增长。
AI做事器的发卖环节,也将随着CSP大批量集中采购切换至企业边缘打算的小批量购买。

换句话说,AI做事器厂商的议价权和盈利能力,将随着采购模式的变革进一步提升。

做事器厂商接下来还会靠AI赚的越来越多。
如此趋势,跟AI做事器客户漫长的回本周期拉开了巨大差距。

以算力租赁的商业模式作为参考,行业内早就合计出了一笔账。
算上智算中央配套的设备(存储、网络),在不考虑算力价格每年低落的条件下,采取英伟达H100作为算力卡的投资回报周期长达5年,采取性价比最高的英伟达4090显卡,回报周期也在两年以上。

如此一来,如何帮客户用好AI做事器,成了全体做事器行业最核心的竞争方向。

加速、稳定,AI做事器厂商各显神通

“大模型落地过程繁芜,涉及分布式并行打算、算力调度、存储分配、大规模组网等多种前辈技能和流程支持。
”对付AI做事器落地运用中须要办理的问题,新华三集团聪慧打算产品线高等产品经理冯良磊曾总结道。

上述难题,对应着AI做事器落地的两大类问题——算力优化和大规模利用。

一位发卖职员对光锥智能也先容到,“常见的客户需求,其一是硬件指标,第二是AI演习的支持能力,末了还有大规模集群的能力。

个中,算力优化部分紧张对应着AI做事器的异构打算问题。
目前,行业供应的办理方案紧张分为优化算力分配和异构芯片协作的两个大方向。

由于AI做事器的运作模式不再是CPU独立处理任务,而是CPU与算力硬件(GPU、NPU、TPU等)的协作。
当前行业的主流办理模型,是用CPU把打算任务拆解到专用算力硬件。

这种算力分配模式,与英伟达CUDA的基本事理相同。
CPU同时“带动”的算力硬件越多,整体算力就越大。

异构打算算力分配事理

对应到做事器硬件层面的改变,是AI做事器成了可以堆叠算力硬件的“积木”。
AI做事器的体积开始“加大加粗”,从通用做事器的1U(做事器高度基本单位)升级至目前常见的4U、7U。

针对算力进一步优化,不少做事器厂商提出了自己的方案。
例如新华三的傲飞算力平台支持对算力和显存按1%和MB的细粒度切分,并按需调度。
遐想的万全异构智算平台则因此知识库的形式,自动识别AI场景、算法和算力集群。
客户只需输入场景和数据,即可自动加载最优算法,并调度最佳集群配置。

在另一边的异构芯片协作上,紧张办理的是不同算力硬件做事器之间的协同问题。

由于英伟达GPU永劫光将处于供不应求的状态,不少智算中央会选择将搭载了英伟达、AMD、华为昇腾、Intel等厂商GPU混用,或多种GPU混训一个AI大模型。
如此一来,全体AI演习环节就会涌现通信效率、互联互通、协同调度等一系列问题。

AI做事器搭载不同厂商AI芯片占比 来源:TrendForce

“做事器集群演习AI的过程,可以大略理解成‘一轮一轮’的进行。
一个任务先被拆解到所有算力硬件,结果汇总后再更新至下一轮打算。
如果过程合营不好,比如有的GPU算的慢,或者通信不畅,相称于其他算力硬件要‘一起等’。
轮数多了,全体AI演习时长就被极大拖延。
”对付异构算力硬件协作办理的实际问题,一位技能职员对光锥智能举了一个形象的例子来阐明。

目前,办理该问题的主流方案是利用云管系统(包括调度、PaaS和MaaS平台)对全体AI演习(和神经网络)进行风雅拆分。

例如,新华三的方案是培植一套异构资源管理平台,通过开拓统一的凑集通信库实现对不同厂商GPU的纳管,从而屏蔽不同厂商之间的差异。
百度百舸异构打算平台的多芯稠浊演习方案,是将各种芯片领悟成一个大集群,再支持全体演习任务。

大同小异的办理方案,其目标正如无问芯穹联合创始人兼CEO夏立雪总结,“打开水龙头前,我们不须要知道水是从哪条河里来的。

异构打算问题办理后,意味着智算集群可选择的硬件种类得以彻底解放。
做事器、算力芯片、AI Infra等厂商之间的合营,也有了协同效应,共同掩护着AI做事器组建大规模算力集群的稳定性。

参考Meta公司利用算力集群的履历,AI大模型演习并非“一帆风顺”。
据统计,Meta 16K H100集群的同步演习中,曾在54天内涌现了466次作业非常。
如何让做事器集群在涌现问题后快速回到运行状态,主流的办理方案是在演习过程中加一道“防火墙”。

例如,遐想的办理方案是“用邪术打败邪术”。
通过利用AI模型预测AI演习故障的办法,遐想的办理方案能在断点前优化备份。
超聚变和华为昇腾则采取了大略直接的对策。
当检测到节点故障时,自动隔离故障节点后,从最近的Checkpoint点规复演习。

整体来看,AI做事器厂商在理解AI,实现算力优化和稳定性升级的过程中,提升自己的附加值。

借助AI对行业的改造,AI做事器的玩家们正在以垂直一体化的姿态,让做事器这个经典ToB行业抖擞出新的代价。

AI让做事器厂商更有代价?

复盘历史,做事器厂商们一贯被“困在”微笑曲线的中间地带。

第三次工业革命之后,随着做事器市场空间越来越大,一批又一批的做事器厂商出身。

在PC时期,Wintel同盟的X86架构,催生了戴尔和惠普两家国际做事器巨子。
在云打算时期,大量的数字化需求催生了浪潮、工业富联等一系列OEM厂商。

然而,就在做事器厂商在每年几百、几千亿营收的华袍下,净利润率却常年为个位数。
在浪潮首创的JDM(联合设计制造)模式下,极致的生产制造带来的是净利率仅为1-2个点。

“微笑曲线形成的缘故原由,并不是由于制造环节本身的问题。
是不能节制家当链核心技能和专利,只能标准化生产,无法具备不可替代性的结果。
”对付做事器厂商的困境,一位国泰君安电子剖析师对光锥智能如此阐明道。

在AI时期,做事器厂商的代价正在随着AI重新定义算力运用而改变。
对AI的垂直整合能力,成了当下做事器厂商竞赛的中央。

聚焦到硬件层面,不少做事器厂商已经深入到了智算中央的培植环节。

例如针对PUE(电源利用效率),新华三、浪潮、超聚变、遐想等厂商纷纭推出了液冷整机柜的办理方案。
个中,新华三除了推出了硅光交流机(CPO)来降落全体机房的能耗外,还对全体网络产品线都进行了AI优化。
另一边,在打破英伟达算力芯片限定层面,神州数码、遐想等厂商在积极推进国产算力芯片的落地,共同实现中国芯片家当弯道超车。

在软件层面,做事器厂商还在积极挖掘AI的生产力属性,让业务不局限于卖硬件。

最常见的,是做事器厂商推出的AI赋能平台。
个中,神州数码在神州问学平台上就整合了模型算力管理、企业私域知识和AI运用工程模块。
神州数码通过原生AI平台的办法,将Agent能力融入到做事器的利用环节,让用户的利用过程“越用越好用”。

神州数码副总裁李刚对此评价称,“我们须要有这样一个平台,用于内嵌企业被环境验证过的Agent知识框架,同时还可以不断地去积淀新的Agent框架,这个便是神州问学AI运用工程平台的代价所在。

新华三则是充分结合网络产品已有的上风,利用AIGC实现了通信领域的非常检测、趋势预测、故障诊断和智能调优。
除了运维环节,新华三还发布了百业灵犀AI大模型,试图用通用大模型“带动”行业大模型的办法,进入到不同行业客户的业务环节,进而扩展原来ToB硬件的业务范围。

“通过不断的科技创新和持续的产品打磨,寻求AI潮流中的新打破,开释AI根本举动步伐的新动能。

正如遐想集团副总裁、中国根本举动步伐业务群总经理陈振宽总结,做事器厂商正是在不断加深AI垂直一体化的进程中,收成了如今利润率大涨的成果。

跳出制造的做事器厂商们,正在迎来属于自己的AI大时期。