作者 | 徐豫编辑 | 漠影
智东西9月13日,百度系统架构师、百度智能云AI打算部卖力人王雁鹏向媒体解读了大模型时期的算力本钱。为了有效降落AI万卡集群的算力开支,他提出搭载RDMA网络、自动并行策略、担保演习稳定性、动态分配算力、多芯异构混训,共五个方面的办理方案。
过去互联网时期,做事器每台数万元,各大厂商光是采购本钱就要花费几个亿。高昂的支出匆匆使互联网大厂自研做事器,百度也是个中一员,该公司自2011年起涉足打算根本举动步伐培植。
然而,伴随深度学习的发展,GPU集群来到万卡规模,大模型时期的算力本钱已经远高于人力本钱。王雁鹏称,当下摧残浪费蹂躏仅仅1%的算力,也是很大的一笔花销,算力之贵也表示出打算根本举动步伐的主要性。
近期,不少业内人士认为,“兼容CUDA是AI芯片的决胜点”,但王雁鹏并不认可这个不雅观点。他阐明道,不少模型兼容CUDA后,只留住了1/3的性能,失落去了原有的竞争力。英伟达是基于CUDA构建了一个加速库生态,王雁鹏则认为,个中生态库的壁垒才是真正的难点。
一、当前的模型演习普遍吃掉了超5成算力来到AI大模型时期,算力的繁芜性已从硬件转移到了软件上,这也导致各大AI开拓者利用算力的难度指数级上升。据百度系统架构师、百度智能云AI打算部卖力人王雁鹏理解,现阶段的模型演习普遍摧残浪费蹂躏了超5成的算力。
最初的CPU通用打算时期,硬件和软件之间高度协同,假设CPU的性能提升了一倍,那么利用该CPU的软件,其性能也会相应地翻一番。
后续来到GPU数值加速打算时期,芯片架构更大略,以专注于供应最大的算力。开拓者们常日利用GPU突出的算力上风,构建一系列繁芜的加速库和框架,有针对性地适配不同运用处景。
目前,我们已处于AI大集群超算时期。单一的芯片已经不敷以独立办理问题,因此须要大规模的芯片协同办理一个问题,GPU集群规模乃至达到10万卡。
在王雁鹏看来,上述打算范式的变迁决定了打算体系机构的技能发展,而这种构造上的变革,又催生了云打算的技能和产品格局。“云打算可以看作一种售卖AI根本举动步伐的形式”,他说道。
打个比方,现在可能只有一块GPU,但其算力分给了100个人用;或者说一个演习任务被切分到十万张卡里运算,这背后须要充足的存储资源来支撑。
▲有效算力的5大参考指标
如何在大模型时期发挥出AI大集群的有效算力,王彦鹏给出了一个打算模型演习过程中有效算力的公式,即有效算力相称于能耗有效率(PUE)、单卡算力有效率(MFU)、并行扩展有效率、有效演习韶光、资源利用这5项数据的乘积。
二、从五大维度开释万卡集群的GPU算力为理解决大模型时期算力利用率低的难点,王彦鹏从有效算力公式中的五大方面入手,提出了5个有助于开释算力潜能的GPU设计理念。
1、为万卡AI场景设计的RDMA网络适配AI集群
传统的IB网络是为HPC设计的,并不适用于AI集群。这紧张是由于两者的设计理念优先级存在冲突,HPC是延迟优先,AI则是吞吐优先。
据王彦鹏透露,百度长期基于RDMA网络构建万卡级别以上的AI集群,以减少内存带宽瓶颈。从数据结果来看,运用RDMA网络后AI集群的带宽有效率从60%提升至95%,模型性能则增强了5%到10%。
2、自动并行策略是AI集群最主要的演进范式
百度的自动并行策略搜索有两个核心策略。
一方面,百度采纳了“边打算边通信”的办法,节省数据搬运所花费的韶光,减少算力和能源损耗。
另一方面,显存优化的切分策略将运算中断所摧残浪费蹂躏的韶光,掌握在几分钟内。
▲百度通过RDMA网络支撑AI万卡集群的演习
得益于此,百度旗下的模型性能不仅能达到开源模型的130%,也比人工调优的模型效果好。
3、担保稳定不间断的任务运行是一个别系工程
王彦鹏多次强调了稳定性在AI演习中起到的主要浸染。AI演习的打算任务是同步进行的,如果中途涌现故障,万卡的故障定位是一个非常困难且不可控的事情。
同时,考虑到万卡规模的AI集群中断频率较高,常日是牵一发而动全身。王彦鹏提出,“无效演习韶光=故障次数故障规复韶光+写检讨点的韶光”。因此,一旦某个点位涌现故障,其影响可能被扩大了十万倍。
▲可以通过3个公式综合判断AI集群的演习效率
据王彦鹏先容,百度通过Hang检测、慢节点检测、秒级捕捉检讨点、分钟级任务规复等办法,来定位和修复涌现故障的单张芯片。目前,百度文心一言大模型的有效演习时长比例超99%。
4、演习一体提升资源利用率
目前,主流模型演习存在以下4个劣势。
首先在线推理或打算任务当中,系统在峰值负载时的性能是均匀负载时的3倍。这意味着系统在设计时预留了较多的算力以应对峰值。但AI集群的波峰和波谷实在较为明显,这也造成非峰值时资源的大量摧残浪费蹂躏,后续在设计上还可以进一步优化。
其次,大量微调模型存在冷热分布不均的情形。此外,实在有很多打算任务可以通过离线推理实现,但仍占用了一定的算力资源。末了,从单卡打算转向万卡打算时期,演习任务分布广、数量大。
对付上述问题,王雁鹏认为,总的来说是要实现算力流量和资源的动态分配,以便跑通不同规模的层级。百度的百舸异构打算平台(AIHC)利用单机多推理实力稠浊布局、弹性层级行列步队、演习任务弹性伸缩机制三种模式后,公司内部和客户的资源利用率都从50%提升到了90%。
5、多芯混训是办理算力卡脖子的关键技能
据王雁鹏先容,目前市情上的芯片规格、版本、存量和算力水平都参差不齐。他提出,可以用一套兼容的框架将各式各样的芯片组合起来,形成一个强大的算力集群。
有共同的“大脑”后,AI开拓者可以通过该集群统一调动所有芯片的算力,从而提高效率、节省开支。
百度在异构并行切分策略下,搭建了跨芯沟通库,并采取了Accelerator抽象设计方法,从而实现千卡性能丢失仅3%,以及万卡性能丢失仅5%。
不过,王雁鹏也谈道,多芯的异构混训虽然理论上可行,但实际推广起来,还有诸多技能难点亟待办理。
结语:打破3个核心技能,为十万卡集群做准备目前,美国AI大模型独角兽OpenAI和xAI的模型演习规模已卷到10万卡级别,百度也将加入这场环绕AI集群算力的竞争,算力运用处景则聚焦于大措辞模型和自动驾驶技能。
王雁鹏向媒体透露,后续百度将持续在3个核心技能上寻求芯片设计架构的打破。
首先是实现更高效的拓扑和拥塞掌握,该公司希望将无壅塞RDMA域扩大10倍。
除此之外,百度操持将跨地域的RDMA网络范围扩大至周遭30km内。
王雁鹏称,现阶段行业内的万卡集群均匀4个小时会中断1次,如果扩展到10万卡集群,可能20分钟旁边就会涌现一次中断。目前,百度旗下模型的演习故障规复时长介于10到20分钟之间,未来致力于达到分钟级别。