根据官方资料显示,WSE-3依然是采取了一整张12英寸晶圆来制作,基于台积电5nm制程,芯片面积为46225平方毫米,拥有的晶体管数量达到了4万亿个,拥有90万个AI核心,44GB片上SRAM,整体的内存带宽为21PB/s,构造带宽高达214PB/s。
使得WSE-3具有125 FP16 PetaFLOPS的峰值性能,比较上一代的WSE-2提升了1倍。

作为比拟,WSE-2芯片面积同样是46225平方毫米,基于台积电7nm制程,晶体管数量为2.6万亿个,AI内核数量为85万个,片上内存SRAM为40GB,内存带宽为20PB/s,构造带宽高达220PB/s。

如果将其与英伟达的H100比较,WSE-3面积将是H100的57倍,内核数量是H100的52倍,片上内存是H100的880倍,内存带宽是H100的7000倍,构造带宽是H100的3715倍。
( H200 的 HBM3e 仅拥有 4.8TBps 的带宽。

在这次的Hot Chips 2024大会上,Cerebras公布了更多关于WSE-3在运行AI大模型上的性能表现。

晶圆级AI芯片WSE3机能公布80亿参数模型上每秒生成1800个Token

Cerebras表示,它在Llama3.1-8B上的推理速率比微软Azure等公司利用NVIDIA H100快了20倍。
须要指出的是,在许多当代天生式 AI 事情负载中,推理性能常日更得益于内存带宽的大小,而不单单是打算能力。
也便是说,拥有更大的内存带宽,模型的推理速率就越快。

Cerebra Systems首席实行官 Andrew Feldman 称,WSE-3通过利用 44GB片上SRAM,使得其能够以 16 位精度运行 Llama 3.1 8B 时,每秒能够天生超过 1,800 个Token,而性能最好的基于英伟达H100的实例每秒只能天生超过 242 个Token。

与此同时,Cerebras还推出了基于WSE-3的CS-3超级打算机,可用于演习参数高达24万亿的人工智能模型,这比比较基于WSE-2和其他当代人工智能处理器的超级打算机有了重大飞跃。
该超级打算机可以支持1.5TB、12TB或1.2PB的外部内存,这使它能够在单个逻辑空间中存储大量模型,而无需分区或重构,从而简化了演习过程,提高了开拓职员的效率。

最新的 Cerebras 软件框架可以为PyTorch 2.0 和最新的 AI 模型和技能(如多模态模型、视觉转换器、专家稠浊和扩散)供应原生支持。
Cerebras 仍旧是唯一为动态和非构造化稀疏性供应本机硬件加速的平台,比较英伟达的DGX-100打算机系统,将演习速率提高了8 倍。

在运行分布在四个CS-3加速器上的 700 亿参数版本的 Llama 3.1 大模型时,也能够实现每秒 450 个Token。
比较之下,H100 可以管理的最佳状态是每秒 128 个Token。

Feldman 认为,这种性能水平,就像宽带的兴起一样,将为 AI 的采取开辟新的机会。
“本日,我认为我们正处于 Gen AI 的拨号时期,”他说,并指出了天生式 AI 的早期运用,个中提示的相应会有明显的延迟。

他认为,如果能够足够快地处理要求,就可以基于多个模型构建代理运用程序,而不会由于延迟变得难以为继。
Feldman 认为这种性能有益的另一个运用是许可 LLM 在多个步骤中迭代他们的答案,而不仅仅是吐出他们的第一个相应。
如果您可以足够快地处理Token,则可以在幕后做更多的处理。

虽然WSE-3能够以 16 位精度运行 Llama 3.1 8B 时,每秒能够天生超过 1,800 个Token,但是如果不是由于系统受打算限定,WSE-3的速率该当能够更快。

该产品代表了 Cerebras 的一些转变,由于此前,Cerebras 紧张专注于 AI 演习。
虽然现在也开始运用于AI推理,但是硬件本身实际上并没有改变。
Feldman表示,他们正在利用相同的 WSE-3 芯片和 CS-3 系统进行推理和演习。

“我们所做的是扩展了编译器的功能,可以同时在芯片上放置多个层,”Feldman阐明说。

SRAM 速率很快,但使 HBM 容量更大

虽然 SRAM 在性能方面比 HBM 具有明显的上风,但它的不敷之处在于容量。
对付大型措辞模型 (LLM)来说,44GB的容量并不多,由于必须考虑到键值缓存在WSE-3所针对的高批处理大小下占用了相称多的空间。

Meta 的 Llama 3 8B 模型是 WSE-3 的空想化场景,由于大小为 16GB(FP16),全体模型可以安装在芯片的 SRAM 中,为键值缓存留下大约 28GB 的空间。

Feldman 声称,除了极高的吞吐量外,WSE-3 还可以扩展到更高的批量大小。
只管它究竟可以扩展到多大程度并保持每个用户Token的天生率,这家初创公司不愿透露。
“我们目前的批次大小常常变革。
我们估量第四季度的批量规模将达到两位数,“Cerebras说道。

当被追问更多细节时,Feldman补充说:“我们目前的批量大小还不成熟,因此我们甘心不供应它。
系统架构旨在以高批量运行,我们估量在未来几周内实现这一目标。

与当代 GPU 非常相似,Cerebras 通过跨多个 CS-3 系统并行化模型来应对这一寻衅。
详细来说,Cerebras 正在利用管道并行性将模型的层分布到多个别系。

对付须要 140GB 内存的 Llama 3 70B,该模型的 80 层分布在四个通过以太网互连的 CS-3 系统中。
这确实会带来性能丢失,由于数据必须通过这些链接。

△由于单个WSE-3只有 44GB SRAM,因此须要将多个加速器连接在一起以支持更大的模型

然而,根据 Feldman 的说法,节点到节点的延迟并不像您想象的那么大。
“这里的延迟是真实的,但很小,并且它与通过芯片上所有其他层的Token分摊,”他阐明说。
“末了,Token上的晶圆到晶圆延迟约占总数的 5%。

对付更大的模型,例如最近宣告的 4050 亿参数变体的 Llama 3,Cerebras 估计它将能够利用 12 个 CS-3 系统实现每秒约 350 个Token。

利用更高速的片上SRAM来替代HBM并不是一个新鲜事,Cerebra的竞争对手 Groq也是这么做的。

Groq 的措辞处理单元 (LPU) 实际上利用了片上SRAM。
不同之处在于,由于单个 Groq LPU SRAM 容量较低,因此须要通过光纤连接更多的加速器来支持更大的模型。

Cerebras 须要四个 CS-3 系统才能以每秒 450 个令牌的速率运行 Llama 3 70B,Groq 此前曾表示,它须要 576 个 LPU 才能实现每秒300个Token。
而Cerebras 引用的人工智能剖析 Groq 基准测试略低,为每秒 250 个Token。

Feldman 还指出,Cerebras 能够在不乞助于量化的情形下做到这一点。
认为Groq 正在利用 8bit量化来达到他们的性能目标,这减少了模型大小、打算开销和内存压力,但代价是准确性有所丢失。

不过,仅比较性能,而忽略整体的本钱是不公正的比拟。
毕竟单个晶圆级的WSE-3芯片的本钱也远远高于Groq LPU的本钱。

编辑:芯智讯-浪客剑