在之前的技能文章中我们已经详细先容过,锐龙7040配备了AMD第一代NPU,而锐龙8040系列则搭载了第二代NPU,它们都基于XDNA架构,而到了Ryzen AI 300系列,AMD正式为它配备了基于XDNA 2架构的NPU,使其算力暴增到50TOPS,远远超过了微软Copilot PC+的40TOPS性能需求和一众竞品。
那么XDNA 2架构到底强在哪儿?为什么它能供应远超常规处理器的AI打算性能?在前不久AMD于美国洛杉矶举行的 2024 Tech Day大会上,AMD高等副总裁、人工智能卖力人Vamsi Boppana为大家进行了详细的讲解。

专业的事交给专业的U:XDNA打造的NPU更适宜高效AI打算

在AI PC时期,AI运用的特定性决定了它更须要一种专用的全新架构来供应更高能效的打算。
从图中可以看到,随着AI运用负载越来越分外化,CPU和GPU在打算能效比方面已经捉襟见肘,而NPU这种专为AI打算而生的处理器明显在这方面上风很大。

那么为什么NPU是AI PC时期处理器必备的功能呢?从图中我们可以看到,AI运用方面,模型的规模和多样性都在不断地增长,越来越成为操作系统不可或缺的一部分,因此提升AI打算的效率就比以往任何时候都显得更主要。
从AI模型每瓦性能比拟可以看到,相对CPU来讲,核显可以供应大约8倍的能效,而NPU则可以供应高达35倍的能效,毫无疑问在 AI打算方面,NPU是能效表现最高的存在。

技能解读AI PC时代天花板级NPU强在哪AMD XDNA 2架构解析

AMD Ryzen AI 300系列移动处理器作为新一代全能AI处理器,可以同时供应全新CPU、NPU和GPU架构,带来全新的AI PC利用体验。
到2024年,第三代AMD Ryzen AI已经拥有超过150个AI助力的ISV,AI生态圈的发展非常迅猛。

Ryzen AI利用的XDNA架构之以是最适宜AI打算,最大的缘故原由便是它采取了灵巧的打算构造与更具适应性的内存层次构造,相对传统的多核心处理器架构来讲,它不会涌现数据堵塞的情形。
同时,它通过软件管理内存,不会涌现缓存未命中,因此拥有稳定而准确的性能表现。
此外,它的可编程互联设计可以有效降落内存带宽花费并实现资源阻隔。
上面这两点让它还可以实现打算单元的灵巧分区,就像图上所示,它可以用8个AIE来完成实时视频、8个AIE来完成实时音频,16个AIE来完成内容创作,空间的可重构、高效的多任务性能担保了AI打算的实时性能。
锐龙7040/8040上采取的NPU就采取了XDNA架构,从实际表现来看也达到了预期的高能效AI打算效果。

大幅升级!
XDNA 2再次在架构上领先业界

在Ryzen AI 300移动处理器上,我们迎来了XDNA 2架构。
XDNA 2在XDNA的根本年夜将AIE(AI引擎)单元从20个提升到了32个,每TIE供应双倍的MACs,片上内存增加60%,外加增强的非线性支持与独占的Block Floating Point模式支持。
和锐龙7040的第一代NPU比较,采取XDNA 2架构的第三代NPU最高支持8个空间并发流,大幅增强多任务能力,供应了5倍的打算性能。
同时,由于XDNA 2还采取了基于列的电源门控,因此也可以供应更长的续航能力,以是第三代NPU拥有了两倍于初代NPU的能效表现。

接下来先容的Block Floating Point模式可以算是XDNA 2的终极奥义了。
我们知道,目前的AI运用有两种常见的数据精度,大多数AI运用利用了16bit的精度,也便是FP16(16bit浮点)模式,而移动平台为了更高的效率一样平常会采取8位精度,也便是INT8(8位整数)模式。
很显然,FP16拥有更高的精度,而INT8则拥有更高的效率,那么有没有办法两者兼得呢?AMD为XDNA 2配备的,便是兼具两者性能与精度优点的Block FP16模式。

从AMD官方数据来看,Block FP16吞吐量险些持平INT8/W8A8,大约两倍于INT8/W8A16——很明显INT8在处理8位权重和16位激活的数据类型时是远不及Block FP16的。
在9位存储的模型体积方面,Block FP16只比INT8略高,远低于FP16,这也有效节约了存储空间。
在16bit精度方面,利用LIama2-7B模型测试,Block FP16可以达到FP16大约99.9%的精度,比INT8/W8A16更高,更是赶过INT8/W8A8一倍。
由此可见,Block FP16结合了INT8的高性能与FP16的高精度上风,让XDNA 2架构打造的第三代Ryzen AI NPU能够发挥出遥遥领先对手的AI算力。
实际上,我们从图上还可以看到,Block FP16即便是和FP32基线比较,也险些没有什么精度丢失,这也就意味着Block FP16给ISV们带来FP16/FP32或者Block FP16演习的模型供应了一条强力的“匝道”。

从实测Float16峰值性能来看,XDNA 2架构打造的第三代Ryzen AI NPU拥有最高50TOPS的算力,远超Apple M4 ANE、Intel Lunar Lake NPU和高通骁龙Elite X NPU。

综合来看,XDNA 2架构在XDNA的根本上进一步扩大规模,并供应了对Block FP16 的支持,从而让它拥有了业界领先的AI算力,供应当下无与伦比的AI高效加速体验。

强大生态圈助力第三代Ryzen AI起飞

在硬件方面,XDNA 2已经交出了令人满意的答卷,那么在配套的生态圈部分呢?AMD与微软多年来的深度互助已经在AI生态圈的打造方面有了巨大的进展,包括感知壳体、天生式AI和协作与沟通,目前所有的模型都已经可以事情,在基于XDNA 2架构的NPU上,可以得到出色的Copilot+体验。

大家最为熟习的Stable Diffusion XL Turbo本地AI图片天生工具也供应了对Block FP16的支持,可以在XDAN 2架构的NPU上实现超快的图片天生操作。

LIama2大措辞模型也可以利用Block FP16来同时供应高精度和高性能,从AMD官方数据来看,在基于LIama2 7B模型的AI相应速率比拟中,XDNA 2架构的Ryzen AI NPU可以供应五倍于竞品酷睿Ultra 7 155H内置NPU的相应速率。

在本地检索增强天生(RAG)演示中,利用LIama2-7B模型的RAG可以在第三代Ryzen AI NPU上完美运行,当然,用户也可以随时给本地RAG“喂”上更新的资料,让它在回答问题时能够供应更加准确的结果。

对付开拓者来讲,可以非常轻松地利用Ryzen AI开拓出成千上万的模型。
Ryzen AI拥有更广的模型支持度,支持1000+的模型,包括CNN和Transformer,支持不同的数据类型,包括INT4/8以及Block FP16、FP 16等等。
同时也优化了Halo模型,支持LIama、Mistral、Qwen大措辞模型和Stable Diffusion文生图。
在实行端,Ryzen AI也支持ONNX运行时,终极打造出运行在锐龙AI条记本上的运用凑集。

AMD的统一AI软件栈让Ryzen AI APU的CPU+NPU+GPU三位一体AI加速架构可以让ISV供应更佳的AI运用体验。
个中在AI模型与算法方面,对开源平台的PyTorch、TensorFlow和ONNX供应了很好的支持;在函数库方面,为CPU(Zen5)/GPU(RDNA 3.5)/NPU(XDNA 2)都供应了运行时,支持AI事情负载分区、编译和优化功能。
当然,硬件根本方面也少不了强大的CPU(Zen5)+ GPU(RDNA 3.5)+ NPU(XDNA 2)三位一体AI加速架构。

写在末了

末了大略总结一下,Ryzen AI 300移动处理器内置的XDNA 2架构Ryzen AI NPU是当前性能最强的NPU,XDNA 2在XDNA的根本上进一步扩展规模,大幅提升性能,这使得它拥有了高达50TOPS的峰值算力,领先业界的同时也成为Copilot+PC当下最佳选择,堪称天下首款“Win24 ready”的X86内置NPU。
同时,XDNA 2还带来了独占的Block FP16支持,可以实现靠近INT8的性能与FP16的精准度,此外,它还支持高等数据类型、供应广泛的模型支持,在统一AI软件栈的支持下更是让ISV能够供应更好的AI利用体验。
综合来讲,在AI PC时期,入手具备XDNA 2架构第三代Ryzen AI NPU的锐龙AI PC,无疑能获得当下最佳的AI运用体验,同时也能更好地支持未来深度绑定AI功能的Windows操作系统。