比英伟达H100快90最强大模型AI芯片来了首搭141GB HBM3e

作者 | 程茜

编辑 | 心缘

智东西11月14日，昨日晚间，英伟达在国际超算大会SC23上宣告推出新一代AI打算平台NVIDIA HGX H200。

H200 GPU重点升级如下：

→ 跑70B Llama 2，推理速率比H100快90%；

→ 跑175B GPT-3，推理速率比H100快60%；

→ 首撘141GB HBM3e，是H100显存容量的近1.8倍；带宽4.8TB/s，是H100带宽的1.4倍；

→ 2024年第二季度发货。

H200完全参数表

需把稳的是，虽然都是“200”，但与此前英伟达发布的GH200 Grace Hopper超级芯片不同，GH200是英伟达Grace CPU与H100 GPU的组合版，而H200是新一代GPU芯片，为大模型与天生式AI而设计，因此比较H100紧张优化的是显存和带宽，算力则与H100基本持平。

一、内置环球最快内存，大模型推理本钱大降

HGX H200支持NVIDIA NVLink和NVSwitch高速互连，可支持超过1750亿参数规模模型的演习和推理，比较于H100，H200的性能提升了60%到90%。
英伟达高性能打算和超大规模数据中央业务副总裁Ian Buck将其描述为“天下领先的AI打算平台”。

这也是首款内置环球最快内存HBM3e的GPU，英伟达的新闻稿写道，GPT-3的推理表现中，H100的性能比A100提高了11倍，H200 Tensor Core GPU的性能比A100提高到了18倍。

Buck称，英伟达将在未来几个月内连续增强H100和H200的性能，2024年发布的新一代旗舰AI芯片B100将连续打破性能与效率的极限。

在天生式AI基准测试中，H200 Tensor Core GPU每秒在Llama2-13B大型措辞模型上每秒快速通过1.2万个tokens。

单张H200跑700亿参数的Llama 2大措辞模型，推理速率比H100快90%；8张H200跑1750亿参数的GPT-3大措辞模型，推理速率比8张100快60%。

在HBM3e的助攻陷，NVIDIA H200能以每秒4.8TB的速率供应141GB内存，与NVIDIA A100比较，容量险些翻倍，且带宽增加了2.4倍。

二、兼容H100，明年第二季度开始供货

英伟达还展示了一个做事器平台，可以通过NVIDIA NVLink互连连接四个NVIDIA GH200 Grace Hopper超级芯片，其具有四路和八路配置。

个中，四路配置在单个打算节点中配备了多达288个Arm Neoverse内核和16PetaFLOPS的AI性能，以及高达2.3TB的高速内存。

八路配置的HGX H200供应超过32PetaFLOPS的FP8深度学习打算和1.1TB聚合高带宽内存，可在天生式AI和HPC运用中实现最高性能。

当与具有超快NVLink-C2C互连的NVIDIA Grace CPU合营利用时，H200还创建了带有HBM3e的GH200 Grace Hopper超级芯片，这是可以做事于大规模HPC和AI运用的集成模块。

这些做事器主板与HGX H100系统的硬件和软件兼容。
它还可用于英伟达8月份发布的采取HBM3e的新一代NVIDIA GH200 Grace Hopper超级芯片中。

基于此，H200可以支配在各种类型的数据中央中，包括本地、云、稠浊云和边缘。
包括华硕、戴尔科技、惠普等在内的英伟达环球生态系统互助伙伴做事器制造商也可以利用H200更新其现有系统。

H200将于2024年第二季度开始向环球系统制造商和云做事供应商供货。

除了AI算力和云做事公司CoreWeave、亚马逊无做事器打算做事Lambda和云平台Vultr之外，AWS、谷歌云、微软Azure和甲骨文云将从明年开始成为首批支配基于H200实例的云做事供应商。

三、环球TOP 500超算榜，基于英伟达技能的系统达379个

此外，基于10月英伟达发布的TensorRT-LLM开源库，英伟达GH200超级芯片的速率是双插槽x86 CPU系统的110倍，能效是x86 CPU + H100 GPU做事器的近2倍。

在环球TOP 500超算榜中，得益于由NVIDIA H100 Tensor Core GPU供应支持的新系统，英伟达在这些系统中供应了超过2.5ExaFLOPS的HPC性能，高于5月份排名中的1.6ExaFLOPS。

同时，新的环球TOP 500超算榜名单中包含了有史以来利用英伟达技能数量最多的系统为379个，而5月份的榜单中为372个，个中还包括了38台超级打算机。

英伟达加速打算平台还供应了强大的软件工具支持，能使开拓职员和企业构建和加速从AI到HPC的生产就绪型运用程序，个中包括用于语音、推举系统和超大规模推理等事情负载的NVIDIA AI Enterprise软件套件。

结语：环绕大模型核心痛点，剑指加速打算需求

天生式AI催生的大量加速打算需求仍旧在不断增长，大模型开拓和支配带来的算力需求也成为企业的核心痛点，性能更强的AI芯片仍旧是当下大模型企业竞争的重点之一。

如今，英伟达再次环绕着天生式AI的开拓和支配甩出了一系列硬件根本举动步伐和软件工具，帮助企业打破大模型开拓和支配的核心痛点，并且通过在数值、稀疏性、互联、内存带宽等方面的改造，不断巩固其在AI时期的霸主地位。

每期AI知识网