芝能科技出品

随着环球对人工智能(AI)的需求不断增长,数据中央作为AI打算的主要根本举动步伐,其网络架构与连接技能的发展变得尤为关键。

本文将简述数据中央网络架构的演化及其在AI运用中的主要性,并磋商两种主流网络架构——InfiniBand和RoCEv2。

AI天生内容(AIGC)市场在2024年迎来了爆发式增长。
OpenAI发布的Sora和海内的Kimi大模型引领了这一潮流。

数据中央的收集架构及连接技能

估量到2024年,环球对AIGC办理方案的投资将达到200亿美元,并在2027年超过1400亿美元。
这种增长对AI网络架构提出了更高的哀求,因其须要支撑大规模AI模型的演习和推理。

01传统云打算与AI智算中央网络架构比拟

● 传统云打算数据中央网络架构

传统云打算数据中央紧张基于南北向流量模型设计,即对外供应做事的流量较大,而内部东西向流量较小。

这种架构存在一些不敷,例如高带宽收敛比、较高的互访时延和网卡带宽低。
这些问题导致传统架构无法知足AI打算对高带宽和低时延的哀求。

● AI智算中央网络架构

AI智算中央常日采取Fat-Tree(胖树)架构,通过1:1的无收敛配置,确保了高性能和无壅塞传输。
此架构能够有效降落时延,并支持大规模GPU集群。

此外,AI网络架构中常用的RDMA技能,许可主机之间直接内存访问,显著降落了同集群内部的时延,提高了网络性能。

02AI智算网络的两大主流架构

● InfiniBand网络架构

InfiniBand网络通过子网管理器(SM)进行集中管理,利用信用令牌机制确保数据在有足够缓冲区时才发送,从而避免数据丢包。
其自适应路由技能能够根据数据包情形动态选择路径,实现最佳负载均衡。

● RoCEv2网络架构

RoCEv2(RDMA over Converged Ethernet)采取以太网和UDP传输层,具有更好的可扩展性和支配灵巧性。
其流控机制包括优先流掌握(PFC)和显式拥塞关照(ECN),结合数据中央量化拥塞关照(DCQCN),能够在保持网络高效运行的同时避免数据丢失。

随着AI打算需求的增加,800G和1.6T的主流传输方案逐渐成为市场热点。

这些方案在实际运用中,尤其是单模传输和预端接技能方面,供应了创新的办理方案。

同时,为应对高能耗高热量问题,液冷办理方案也在AI数据中央得到广泛运用。

随着光模块技能向 400G 及更高速率迈进,寻衅不单是提升数据传输速率,还包括功耗和本钱。

从 2007 年的 10G 光模块仅需 1W 功率,到如今 400G 及 800G光模块功耗靠近 30W,随着速率的每一次迭代,功耗也相应攀升。

在满载状态下,一个交流机可能搭载多达数十个光模块,48 个光模块的总功耗可达 1440W,而光模块常日占整机功耗的 40%以上,导致全体智算中央的能耗可能超过 3000W。

液冷技能因其高导热性能和高效散热能力,已成为降落网络系统能源功耗的广泛认可办理方案,特殊适用于高功率密度数据中央,但需办理冷却液堕落性和压强差等寻衅以确保系统安全。

小结

AI智算数据中央的网络架构和连接技能正朝着更高效、更低时延和更高带宽的方向发展。
无论是InfiniBand还是RoCEv2,这些技能的进步都在为AI的发展供应坚实的根本。

在未来,随着技能的不断创新,AI智算网络架构将进一步优化,推动AI运用的广泛遍及和深入发展。