关于「XPU」战略，英特尔用三年将PPT转为实际成果（切片堆栈）

【头部语录】

“数据中心、AI、高性能计算需求，统统到「XPU」碗里来”

战略的制定源于需求，却又要领先于需求。

而当战略提出后，怎样将PPT变成实际成果？

2018年的架构日，是英特尔XPU异构愿景的初次亮相，由标量、矢量、矩阵、空间组成的SVMS架构，分别对应CPU、GPU、加速器和FPGA，可以进行多种异构组合。

这是英特尔首次、也是业界首次明确将单一架构之后的发展方向定义为XPU。

三年后的2021年架构日上，与这一愿景相对应的芯片硬科技终于有了更多、也更为细致的披露：两类x86 CPU内核、两大数据中心SoC、两款独立GPU，以及变革性的客户端多核性能混合架构。

三载光阴，英特尔一步步地将当年的「XPU」愿景变成现实，而这期间，计算需求和科技环境也发生了翻天覆地的变化。

自2020年新冠爆发，科技被推到了中心位置：它成为了解决所有人如何沟通、工作、娱乐甚至对抗疫情的核心要素。

强大的计算能力已是时代的绝地需求，预计到2025年将是1000x（千倍级）的提升。今年3月，随着新任CEO帕特·基辛格上任，英特尔提出IDM2.0战略，以应对更高计算性能的无尽需求、以及多元庞大的客户工作负载。

数据中心、AI、高性能计算、边缘智能、云计算……一款通用型的处理器若能满足市场上千变万化的需求固然是好，但不可排除某些特定领域还是需要不同的处理器或芯片。

而作为融合硬件和软件的“炼金术”，架构的创新，及其创新的广度与深度，也能映射当今的业界需求。在英特尔这场新品预览的盛宴中，更让人兴奋的是企业级CPU、GPU和IPU的出现与迭代。

Sapphire Rapids实现重磅架构创新，欲树立下一代数据中心处理器标准

智能化场景扩大、数据世界进程加速的一大重要标志就是，用作于数据处理和存储的数据中心的建设在全球范围内兴起。

而本次架构日上发布的Sapphire Rapids，则代表了业界在数据中心平台上的一大进步。

Sapphire Rapids的核心是一个模块化的分区SoC架构，得益于英特尔的EMIB多晶片互连封装技术和先进网格架构，它具有出色的可扩展性，同时仍能保持单晶片CPU接口的优势。而且，它还将结合英特尔的性能核与全新加速器引擎，以树立下一代数据中心处理器的标准。

Sapphire Rapids还提供了一个单一、平衡的统一内存访问架构，每个线程均可完全访问缓存、内存和I/O等所有单元上的全部资源，由此在整个SoC层面实现一致的低时延和高横向带宽。

Sapphire Rapids提供多种面向数据中心特定应用的加速器，包括新的指令集架构和集成IP，用于加速这些特定工作负载。

Sapphire Rapids内置了英特尔加速器接口架构指令集(AIA)，支持对加速器和设备的高效调度、同步和信号传递。此外，它还将集成英特尔高级矩阵扩展(AMX)，引入的新加速引擎，可为深度学习算法核心的Tensor处理提供大幅加速。其可以在每个周期内进行2000次INT8运算和1000次BFP16运算，实现计算能力的大幅提升。

Sapphire Rapids还加入了英特尔数据流加速器(DSA)，旨在卸载最常见的数据移动任务，这些任务会导致数据中心规模部署中的开销。

这款即将问世的服务器处理器可在不断变化且要求日益增高的数据中心使用中提供可观的计算性能，并对工作负载进行优化，以在云、微服务和AI等弹性计算模型上提供高性能。

Ponte Vecchio，向加速AI、HPC进发，迄今最复杂的SoC，含1000亿个晶体管

CPU确实可以被称作是当代数据中心基础设施构建中的核心力量，但却不是唯一，海量数据的真正价值如何得到最大释放一直是关键问题。

其中一大挑战是现有通用计算设备所具备的处理能力，很难匹配全部的、不同形态的数据，这就需要从计算、处理、传输、存储等多个维度去创新与变革。

英特尔于两年前提出了「超异构计算」，如今这一理念正在走近实践：Sapphire Rapids是面向服务器、云计算领域的尝试，那么此次英特尔推出的另一款数据中心SoC处理器Ponte Vecchio则是面向超算领域的尝试。

Ponte Vecchio是英特尔迄今最复杂的SoC，包含1000亿个晶体管，提供领先的浮点运算和计算密度，主打AI、HPC和高级分析工作负载的加速。

这款SoC也是其践行IDM 2.0战略的绝佳示例，它基于Xe HPC微架构，采用多种先进的半导体制程工艺、英特尔创新的EMIB技术以及Foveros 3D封装技术。

Ponte Vecchio已走下生产线进行上电验证，并已开始向客户提供限量样品。Ponte Vecchio预计将于2022年面向HPC和AI市场发布。

Xe HPC微架构的IP模块信息也被披露，包括每个Xe核的8个矢量和矩阵引擎（XMX）、切片和堆栈信息，以及包括计算、基础和Xe Link单元的处理节点的单元信息。从具体设计来看，Ponte Vecchio由多个复杂的单元设计组成，然后通过EMIB单元进行组装，实现单元之间的低功耗、高速连接。

其中，计算单元是一个密集的多个Xe内核，是Ponte Vecchio的核心。

该单元基于台积电先进的N5制程工艺技术，一个单元有8个Xe内核，总共有4MB一级缓存，是提供高效计算的关键。该单元具有极其紧凑的36微米凸点间距，可与Foveros进行3D堆叠。英特尔已通过设计基础设施设置和工具流程以及方法，为测试和验证该节点的单元铺平了道路。

Xe链路单元采用台积电N7工艺，提供了GPU之间的连接，支持每单元8个Xe链路，这对HPC和AI计算的扩展至关重要，旨在实现支持高达90G的更高速SerDes，该单元已被添加到在建的Aurora百亿亿次级超级计算机的扩展解决方案中。如Xe架构一样，Ponte Vecchio将由英特尔统一软件堆栈oneAPI支持。

基础单元是Ponte Vecchio的连接组织，基于Intel 7制程工艺，针对Foveros技术进行了优化。它包含所有复杂的I/O、高带宽组件与SoC基础设施——PCIe Gen5、HBM2e内存、连接不同单元的MDFI链路和EMIB桥接。该单元采用高2D互连的超高带宽3D连接，时延很低，具备无限连接的潜力。英特尔技术开发团队正致力于满足带宽、凸点间距和信号完整性方面的要求。

事实上，过往几年中，在吞吐量计算密度与对高带宽内存的支持方面，英特尔并不处于优势地位。但作为英特尔弥补短板的*手锏，Ponte Vecchio芯片在每秒浮点运算次数和计算密度上，即将占据业界领先优势。

成为云数据中心的战略元件，IPU锁定云服务供应商

在云端服务器架构中，如果所有计算任务都由CPU来执行，它很难在传统服务器架构中那么自如。

而IPU是一种可编程的网络设备，旨在使云和通信服务提供商减少在CPU方面的开销，并充分释放其性能价值。

在此背景下，英特尔推出首个ASIC IPU——Mount Evans，以及全新的基于FPGA的IPU参考平台——Oak Springs Canyon。

Mount Evans是英特尔与一家一流云服务提供商共同设计和开发的，它融合了多代FPGA SmartNIC的经验。

英特尔这款IPU并不做特定数据类型处理或卸载AI负载等任务，而是专注于从CPU上卸载用于基础设施管理和虚拟化的任务，然后让CPU更专注于它擅长的高价值的或关键的计算负载。

通过基于英特尔IPU的架构，云服务提供商（CSPs）可以通过把基础设施任务从CPU转移到IPU，从而让数据中心收益更大化。

值得注意的是，在接受媒体采访时，英特尔公司数据平台事业部首席技术官Guido Appenzenller表示，IPU并没有限定和某种特定的CPU搭配，也就是说，它可以与任何CPU共事。

对云服务提供商而言，IPU的出现，让他们几乎不用付出任何推倒重来的额外成本，就能提升效率让数据中心收益更大化。

Facebook研究数据显示，微服务通信开销可消耗31%~83%的CPU性能。

由图可见，在Web应用中，83%的服务器CPU循环用于传输、压缩、解压缩、加密等功能的开销，未来这些开销均可从CPU转移至IPU。

此外，英特尔基于IPU的架构可以管理存储流量，减少时延，同时通过无磁盘服务器架构有效利用存储容量。借助IPU，客户可通过一个安全、可编程、稳定的解决方案更好地利用资源，使其能够更好地平衡处理与存储。

此前，传统企业的数据中心架构中，每台服务器都会配备一套磁盘驱动器和固态盘，来应对高峰期出现的存储负载。

而使用IPU后，就可采用全面无磁盘架构，所有存储资源都由中央存储服务来提供，这种模式比同时管理数据中心中那么多台服务器的存储资源要容易得多。

除此之外，Mount Evans的出现本身融合了多代FPGA SmartNIC的经验，例如：它支持超大规模就绪，提供高性能网络和存储虚拟化卸载，同时保持高度控制；它使用硬件加速的NVMe存储接口，该接口扩展自英特尔傲腾™ 技术，以模拟NVMe设备；它还会集成英特尔® 高性能Quick Assist技术，来实现更高效的高级加密和支持压缩加速等。