英特尔最强做事器CPU来了AI机能直接翻倍

做事器CPU领域持续多年的核心数量大战，被一举闭幕了！

英特尔最新发布的至强® 6 性能核处理器（P-core系列），超越了过去单一维度的竞争，通过“升维”定义了新的游戏规则：

算力、存力，要全方位提升。
不能做到这一点的CPU，不是智算时期的好U。
在过去，CPU升级换代每每要在单个芯片上集成更多的核心，但这难免会受到工艺和芯片尺寸的限定，更别提与IO和内存的匹配难题。
这一次，至强® 6 性能核处理器采取了打算芯片单元与I/O芯片单元解耦的分离式模块化设计，可以灵巧组合不同数量的打算单元，实现核心数量的扩展及内存和IO的同步强化，担保更优的整体性能和能效。
用最直不雅观的办法感想熏染一下：
2023年12月15日，英特尔数据中央与人工智能集团副总裁陈葆立从裤兜里取出第五代至强® 可扩展处理器，还只有64个核心。
2024年9月26日，还是陈葆立，同样从裤兜里取出至强® 6 性能核处理器，却直接翻倍到128核心。
两款处理器形状大小相似，都能轻松放入口袋，但性能却发生了质的飞跃。
详细来说，刚刚登场的是至强® 6性能核处理器大家族中的先锋+顶级战力——英特尔® 至强® 6900P系列。
拥有多达128个性能核和504MB的超大L3缓存，更大、更宽的内存支持，更多、更快的IO能力。
非常适用于各种数据和打算密集型运用任务，比如科学打算、海量数据处理，还有AI。
看到这里，可能很多人会有疑问：你们又要说用CPU跑AI？是GPU它不喷鼻香了么？
NoNoNo，我们是想说：有了这款CPU，你的GPU或其他的AI加速器，会更喷鼻香！
谈到这个话题，就要先说说AI做事器。
在天生式AI运用百花齐放确当下，AI做事器的主要性可谓是不言而喻，无论是对付大规模的演习、推理，亦或是RAG等任务，都对其提出了更高的哀求。
也正如综合市场预测数据从侧面反应出来的那般：
AI做事器市场规模已经达到了211亿美元，估量2025年达到317.9亿美元，2023-2025年的CAGR为22.7%。
我们都知道AI做事器里GPU或AI加速器很主要，却很随意马虎忽略个中CPU的浸染。
一个真正为AI做事器或AI数据中央根本举动步伐设计的出色的CPU，该当是什么样的？
英特尔® 至强® 6 性能核处理器，可以说是给出了一个正解。
外媒乃至评测过后，对英特尔这次的新CPU给予了极高的评价：
不仅仅是Xeon，更是XEON。
嗯，用中文来说的话，便是英特尔至强，这次是真的至强（达到最强）了。
那么英特尔® 至强® 6 性能核处理器是如何解锁这种认同的呢？
至强，何以至强
首先要说的是算力。
英特尔® 至强® 6900P系列产品这次最亮眼的128核（三个打算芯片单元），这便是它看似符合此前游戏规则的一大技能亮点。
通过核心数量的不同排列组合办法，至强® 6 性能核处理器可以应对不同的场景来供应不同核心的型号，除了最高128核的产品系列（6900P）外，还有最高86核（2个打算芯片单元），最高48核（1个打算芯片单元）和16核（1个打算芯片单元）的产品系列。
用来做这种排列组合的模块中，打算芯片单元采取的是Intel 3制程，包含一体式网格、核心、缓存、内存掌握器等，可以担保数据传输的同等性。
I/O芯片单元则是采取Intel 7制程，包含UPI、PCIe、CXL和加速器引擎等。
不同于第五代英特尔® 至强® 产品，至强® 6是将I/O和打算两个单元进行理解耦，不仅易于做核数的扩展，还有利于验证、重复和灵巧利用。
除此之外，英特尔® 至强® 6 性能核处理器的亮点还包括：
6400 MT/s DDR58800 MT/s MRDIMM内存6条UPI 2.0链路；速率高达24 GT/s96条PCIe 5.0/ 64条 CXL 2.0通道L3缓存高达504MB支持FP16数据格式的英特尔® AMX
接下来要说的是存力。
至强® 6 性能核处理器超脱此前游戏规则的亮点就藏在个中。
它同时支持了更快的DDR5内存（6400MT/s）和更“宽”的MRDIMM内存（8800MT/s）。
仅把前者更换成后者，就已经能让科学打算和AI场景的多项任务提升7%-33%不等了。
而且比较此前至强® CPU Max采取的HBM，MRDIMM内存的引入，不仅带宽和速率上风更明显，它与CPU解耦的型态，也更利于用户的灵巧采购、配置与升级。
存力除了内存本身的性能，还包含CPU与内存之间的互连技能，至强® 6导入了最新的Compute Express Link 2.0 (CXL 2.0) 。
CXL 2.0支持多种设备类型，且可向后兼容，实现对内存和存储设备的灵巧扩展。
支持链路分叉、更强的CXL内存分层支持，以及以受控热插拔的办法添加/移除设备，为未来的数据中央架构带来了更多可能性。
更值得一提的是至强® 6独占的“Flat”内存模式，CXL内存和DRAM内存被视为单一的内存层，让操作系统可以直接访问这一统一的内存地址空间。
这样的分层管理可以确保最大限度地提升内存利用效率，并且实现利用好CXL内存扩展而无需修正软件。
如此这般能对内存速率、带宽、容量和可扩展性全面兼顾，已经形成了至强® 6 性能核处理器独树一帜的竞争力。
详细到做事器设计上，CLX2.0可以支持每机供应8TB内存容量扩展，同时供应384GB/s的内存带宽扩展。
当然，作为CPU的至强® 6 性能核处理器并没有忘却自己的本份，把存力与算力的硬指标上风结合起来，转化成真正的上风，才是它被看好的底气。
在算力方面，除了更多内核，它还有内置加速器与指令集更新带来的加成。
主攻AI加速的英特尔® 高等矩阵扩展（Intel® AMX）新增对FP16数据类型的支持，现已全面覆盖 int8、BF16和FP16数据类型。
其在每个内核中的矩阵乘加（MAC）运算速率可达 2048 FLOPS（int8）和1024 FLOPS（BF16/FP16），能大幅提升 AI 推理和演习性能。
英特尔® 高等矢量扩展 512（AVX-512）虽然是员老将了，但在得到如此丰沛的内核资源支持后，也依然是科学打算、数据库和 AI 任务中的矢量打算担当。
这些加速器的升级与焕新带来的成果便是下图这种多负载性能表现普遍倍增的征象，在AI领域，尤其是在Llama2-7B上的提升直接达到了前一代产品的3.08倍。
末了在硬件增强的安全特性方面，英特尔早期的方案为SGX，但从第五代至强® 开始新增了TDX方案。
这些看似难以通过Benchmark数值来证明自身代价的技能，实则不可或缺，是确保关键数据和运用更为安全可靠的压舱石。
而安全，正好是目前AI数据中央或智算中央这种涉及海量数据、关系万千机密和隐私的环境中较少提及，却最应补足和巩固的一环。
说了这么多，如果要用一句话总结至强® 6 性能核处理器，尤其是6900P系列产品的定位，那便是“更强通用打算，兼顾AI加速”了。
那么新处理用具体都有哪些用法，表现又如何呢？
还请连续往下看。
全能型CPU：加速AI推理，统领异构打算
首先，至强® 6 性能核处理器可以做“独行侠”，直接加速AI推理，助力AI运用遍及。
用CPU做AI推理加速，其意义并非在于与GPU或其他专用加速器竞争极致的速率或效率，而是要在一些本钱、采购、环境等条件受限的情形下，借助CPU支配更广泛、人才储备更踏实和运用更便捷的上风，让AI能够更快、更有效地落地。
带着这样的整体目标，英特尔在软件生态和事情负载优化方面投入了大量精力，以确保用户能够充分发挥至强® 6 性能核处理器的潜力。
例如，英特尔与TensorFlow和PyTorch等主流深度学习框架进行深度互助，将针对英特尔CPU的优化集成到官方发行版中，从而使得在英特尔CPU上运行深度学习模型时，性能得到显著提升。
上文提到的Llama2-7B成绩便是这些努力的成果之一。
其余，至强® 6 性能核处理器还可以做“指挥官”，强化AI系统整体实力。
这实在是很多用户更为熟习，也是至强® 6性能核处理器更主打的运用办法，所谓“指挥官”，另一个名称便是机头（head-node）CPU或主控CPU。
如果将至强® 6 性能核处理器用作AI做事器的机头CPU，那么其在算力（更强的单线程性能）、存力（对MRDIMM内存和CXL内存扩展能力的支持）以及 I/O（更多的PCIe 5.0通道）等方面的上风和潜能就能更加充分地发挥和开释出来。
使其能够与GPU或专用的AI加速器高效协作，出色地处理数据预处理、数据传输分享和稠浊事情负载。
我们最初的设问，至此终于拼凑出了一个更为完全的答案，即为何至强® 6 性能核处理器能够被称作AI做事器或AI数据中央的“严选”，乃至是优选CPU ？
这正是由于它既能够单枪匹马地加速AI推理，又可以居中折衷以提升异构系统的整体性能输出。
更不必说，它还能够兼顾浩瀚传统但同样不可或缺的运用负载，例如前文提及的科学打算和数据库，以及高性能云根本举动步伐构建等任务。
以Flatiron Institute的案例来说，作为一家科研机构，他们对科学打算有着强烈的需求。
通过测试得知，至强® 6 性能核处理器在常见科学打算负载上表现精良。
他们还以为对MRDIMM内存的支持将进一步打破传统DDR内存的性能瓶颈，推动数据密集型科学创造。
在本次至强® 6 性能核处理器的发布会上，英特尔也展示了本地数据库软件互助伙伴——科蓝软件的成果。
英特尔市场营销集团副总裁、中国区&行业办理方案和数据中央发卖部总经理梁雅莉在先容生态系统支持状况时表示：
基于我们的新品，科蓝软件构建了高性能国产分布式数据库，其吞吐较第五代至强® 可扩展处理器提升达到 198%。
值得一提的是，在她分享中涌现的中国互助伙伴数量浩瀚且都是各领域的核心力量，英特尔虽然在产品研发上有了更多创新，但在商业模式上仍旧非常依赖开放架构平台之上的家当协力。
十数家OEM、ODM、OSV和ISV在至强® 6 性能核处理器发布时同步推出新产品，以及多家云做事供应商的支持，在英特尔看来，才是新品真正走近用户和代价放大的根本。
建好AI做事器，CPU不能是短板
从前面列举的浩瀚数据和用例可以看出，在当前AI运用加速落地、新推理打算范式和合成数据等趋势的推动下，AI算力需求越来越看重推理和复合事情负载。
在这之中GPU或专用加速器固然主要，但CPU作为全体系统的“指挥官”，绝不能成为短板。
大家须要真正兼顾通用打算，以及AI做事器及AI数据中央场景的CPU产品。
它不仅能支持广泛的第三方GPU及AI加速器，与它们组合形成强大的异构打算平台，还能在个中补足GPU或专用加速器覆盖不到或不敷的地方，为更多样和繁芜的场景供应灵巧的算力选择，并增强全体AI平台的稳定性、安全性和扩展性。
英特尔® 至强® 6 性能核处理器的涌现，就为AI打算带来了这样一个全新的支点。
末了让我们打个小广告：为了科普CPU在AI推理新时期的玩法，量子位开设了《最“in”AI》专栏，将从技能科普、行业案例、实战优化等多个角度全面解读。
我们希望通过这个专栏，让更多的人理解CPU在AI推理加速，乃至是全体AI平台或全流程加速上的实践成果，重点便是如何更好地利用CPU来提升大模型运用的性能和效率。
理解更多关于英特尔® 至强® 6 性能核处理器，点击链接立即获取产品简介
https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/xeon-6-processor.html?cid=soc&source=Wechat&article_id=5901
— 完 —
量子位 QbitAI · 头条号签约
关注我们，第一韶光获知前沿科技动态

每期AI知识网

英特尔最强做事器CPU来了AI机能直接翻倍

打造独具魅力的网站页头设计，助力企业高效招聘

全球音乐与SoundLabs合作推出AI声音插件MicDrop