实在中国并不比英伟达差。

我们仔细阐发一下英伟达Blackwell架构的B200芯片,可以看到其与互联技能有密切关系。

一个是单个做事器内多个GPU互联的NVLINK技能,B100芯片利用的第五代NVLINK技能为每个 GPU 供应了打破性的1.8TB/s 双向吞吐量,确保多达576个GPU 之间的无缝高速通信。

另一个是不同做事器的GPU之间的NV Switch技能,每个NVSwitch都可以最多支持16个GPU互联,并且在利用NVSwitch进行互联的时候,不仅能够达到高速的效果,同时还能够担保每一个GPU和连接GPU之间都能够保持超低延迟的通讯。

其实华为在AI芯片上并不比英伟达差

说直白点,B200芯片并不是单一的GPU,而是通过互联,将多个GPU集成在一起。

为什么会这样?由于摩尔定律失落效,单个芯片的提升面临瓶颈,要想提升算力,就须要通过互联、堆叠的办法实现。

比如,台积电的3nm制程,实在并没有给芯片性能带来革命性的变革。
去年的苹果A17 Pro芯片,用了台积电的3nm制程,但是CPU性能只有10%的提升。

黄仁勋说," 创新不仅仅是芯片,而是全体堆叠 ",便是这个道理。

详细到AI大潮,对算力的需求是几何级增长,这个时候再指望单个芯片的性能提升已经弗成,唯有通过多个GPU之间的高速互联。

换句话说,便是将GPU高速互联形成集群,这就相称于把AI的算力中央当做一台超级打算机来进行设计。

这种环境对付中国正好是机会。

由于众所周知的缘故原由,我们不能利用前辈制程制造芯片,但是这可以通过高速互联的集群来填补。
华为为例,华为最善于的便是联接,便是通信。
与英伟达NVLINK对应的,是华为的HCCS,比如昇腾910B的HCCS总带宽为392GB/s,和英伟达A800 NVLINK的400GB/s相称。
其他还有 PCIe 4.0、100G等高速互联技能。

华为精确预判到了集群的大方向,华为昇腾打算业务总裁张迪煊透露,早在2018年,华为就判断人工智能会快速发展,并改变过去小模型的开拓模式,形成大算力结合大数据天生大模型的模式,因此华为早在6年前就开始在算力集群上发力。

压强式投入,让华为在算力集群上已经实现了重大打破。
在2023年7月举行的昇腾人工智能家当高峰论坛上,华为宣告昇腾AI集群全面升级,集群规模从最初的4000卡集群扩展至16000卡,是业界首个万卡AI集群,拥有更快的演习速率和30天以上的稳定演习周期,十倍领先业界。

去年9月,华为推出全新架构的昇腾AI打算集群——Atlas 900 SuperCluster,可支持超万亿参数的大模型演习。
新集群采取了全新的华为星河AI智算交流机CloudEngine XH16800,借助其高密的800GE端谈锋能,两层交流网络即可实现2250节点(等效于18000张卡)超大规模无收敛集群组网。

按照昇腾的指标,1000卡的算力约300P,千卡就能提升约30P,万卡就能提升约300P。

想象一下,18000张GPU卡高速互联在一起,是什么景象?这才是史诗级的超级AI打算机!

据理解,目前国产大模型有超过一半都是基于昇腾AI孵化出来的。

以是,无需过分吹捧英伟达,无需对自身妄自菲薄,中国在万卡集群上已经走到了天下前列,在算力根本举动步伐上并不差。