在当今迅速发展的技能格局中,保持领先地位不仅仅是一个目标,更是一个必要条件。创新浪潮,尤其是 AI 领域的创新,正在推动全体技能堆栈的巨大变革。
以太网(Ethernet)网络是见证深刻变革的领域之一,这是数字通信的基石,数十年来一贯是企业和数据中央环境的根本。
如今,每个数据中央都在加速,以支持当代 AI 事情负载,从而增加了对支持这些事情负载的根本举动步伐的需求。许多企业已经非常熟习 Ethernet,将其作为可信网络标准。然而,他们缺少一种高效的办理方案以利用 Ethernet 协议来充分支持 AI 事情负载的特性。
NVIDIA 深刻承诺理解和相应客户不断变革的需求并据此驱动持续创新,确保我们的办理方案不仅知足而且可以预测并超过客户的预期。
NVIDIA Spectrum-X 是环球首款高性能以太网架构,旨在实现不仅仅是增量的改进。它代表着重大飞跃,确保以太网在数据呈指数级增长的时期仍旧是一种可靠的、面向未来的技能。
从观点到实现的性能
由于 AI 事情负载需求不断增加的数据吞吐量和零尾延迟,因此必须重塑传统的以太网以知足严格的哀求。前辈的 Remote Direct Memory Access(RDMA)协议、均衡大型网络流量以及更好的拥塞掌握方法等成分必须在大规模的系统中得到运用、支配和验证。
虽然以太网已经被用于大规模云和数据中央,但实际上它每每只是用于支持单做事器运用或小型事情负载。传统以太网实质上是一种有损网络,在扩展 AI 等分布式打算负载时,会带来重大寻衅。
为理解决传统以太网的这些缺陷,我们开始开拓新技能和功能,将 NVIDIA 以太网产品转变为高性能打算网络架构,能够支持加速打算的严格哀求。
NVIDIA Spectrum-X 代表了传统以太网的重大进步,它在端到真个架构上进行专门设计,用于优化 AI 事情负载。它利用 NVIDIA BlueField-3 SuperNIC 网卡与 NVIDIA Spectrum-4 交流机协同事情,并特殊增强了数据中央环境中的 GPU 到 GPU 通信(也称为东西向网络流量)。
以下是 Spectrum-X 的特殊之处:
基于遥测的拥塞掌握无损网络动态负载均衡基于遥测的拥塞掌握
通过将高频遥测探针与流量丈量相结合,Spectrum-X 拥塞掌握可确保事情负载得到保护,并确保网络供应性能隔离。这意味着各种类型的 AI 事情负载可以同时在共享根本举动步伐上运行,而不会相互对性能产生负面影响。
无损网络
Spectrum-X 将配置网络实现无损,从而确保不丢弃数据包并最大限度地降落尾延迟。尾延迟是指一组并行任务中速率最慢的任务所经历的延迟,这将决定操作的整体完成韶光。
动态负载均衡
Spectrum-X 利用细粒度动态路由来最大限度地提高网络利用率,并确保以太网的最高有效带宽。动态路由通过在全体网络中实现逐包负载均衡,避免了传统以太网中静态路由(等价多路径,即 ECMP)或 flowlet 路由的陷阱,而无需深度缓冲区或突发接管。
由于负载均衡意味着数据包可以乱序地到达目的地,NVIDIA BlueField-3 SuperNIC 则确保重新排序数据包,并将其放置在主机内存中,从而对运用程序透明。
自 Spectrum-X 创建以来,NVIDIA 团队(包括一些天下有名的网络专家)一贯在进行全天候的基准测试和运用程序测试,他们不断优化 Spectrum-X,以在各种规模下实现超低的运行韶光。
生态系统实现可持续发展
Spectrum-X 带来的性能提升让我们的 OEM 互助伙伴和解决方案供应商愉快不已,这也让我们的大型云客户面前一亮。这迅速促进环球互助伙伴与我们的互助,将 Spectrum-X 集成到他们的数据中央办理方案中。
这标志着我们的互助伙伴开始广泛采取 Spectrum-X,他们认识到 Spectrum-X 网络优化对 AI 事情负载的上风,并将其纳入其产品系列。
客户对 Spectrum-X 的性能赞不绝口
Spectrum-X 能够优化大规模 AI 事情负载并提高数据中央的性能,因此吸引了一批早期客户。通过与我们的 OEM 互助伙伴密切互助,多家顶级云做事供应商率先支配了 Spectrum-X,认识到它在增强其 AI 根本举动步伐的同时显著降落总体 TCO 的潜力。
近期的案例包括:
采取 NVIDIA 技能的戴尔 AI 工厂:将戴尔的打算、存储、软件和做事与 NVIDIA 前辈的 AI 根本架构相结合。HPE 推出的 NVIDIA AI 打算:旨在加速天生式 AI 工业革命。NVIDIA 在支配大规模集成系统(包括用于自身开拓和研究的系统)方面积累了成熟的履历,我们发布这些参考架构,以帮助我们的互助伙伴和客户采取加速打算。
我们还通过 NVIS(NVIDIA Infrastructure Services)供应出色的根本举动步伐做事。凭借每天完成 2560 个经由全面测试和互联的 GPU 的履行效率,利用 NVIS 的客户可以快速启动和运行,短期内实现从硬件购买到演习 LLM 的全体流程。
总结
Spectrum-X 的发展进程才刚刚开始。随着我们的发展,NVIDIA 将在 Spectrum-X 平台上持续创新,在构建 AI 工厂、天生式 AI 云和企业 AI 数据中央方面发挥关键浸染。Spectrum-X 平台树立了新标准,供应了无与伦比的性能和效率。
有关 NVIDIA Spectrum-X 的更多信息,请扫描下方二维码,注册并下载 NVIDIA Spectrum-X 网络平台架构白皮书。