使用面向网络优化的新一代处理器,实现高吞吐量与低时延

使用面向网络优化的新一代处理器,实现高吞吐量与低时延

通信服务提供商 (CoSP) 及其他网络运营商面临着持续不断的压力,需要降低能耗以及全力提升成本效益和环境的可持续发展。而满足这些要求的关键策略始终是基于从边缘到数据中心再到云端分布的网络功能,实现日益精细化的流量处理。

第四代英特尔® 至强® 可扩展处理器凭借出色的每核性能与能效以及丰富的内置加速器,就安全和 AI 等诸多功能,推动了该愿景的实现。一改采用昂贵的外部加速器构建自定义系统的做法,网络运营商如今有捷径可走,那就是,将新服务部署在一种标准化且可扩展的平台上,因为这种平台可满足当今及未来各种部署的性能需求。

面向网络优化的第四代英特尔® 至强® 可扩展处理器 (N-SKU) 专为广泛部署的网络和 5G 工作负载而设计。这一平台以低时延、高吞吐量、确定性性能和更长时间的供货保证为网络功能和解决方案提供支持。该平台性能均衡,融合了多项执行资源、内存和 I/O 创新技术和技术升级,能够快速处理数据包和信号。N-SKU 针对网络、服务器和计算优化型工作负载提供多种工作模式,使通信服务提供商拥有部署一种类型的服务器便可满足多种用例需求的灵活性,从而简化了采购和后勤工作。

多种工作模式由英特尔® Speed Select 技术(英特尔® SST)提供支持,运营商可根据特定需求更好地量身定制执行方案。“网络模式”已面向高吞吐量和低时延需求进行了性能优化,采用高处理器频率支持数据平面、控制平面和信号处理工作负载。“服务器模式”在降低内核频率的同时仍能在相同的功耗范围内运行,可满足通用处理工作负载的需求。“IT 模式”旨在支持时延要求更低的 IT 工作负载。例如,在非高峰时段,“IT 模式”下的系统可以执行运营支持系统和业务支持系统 (OSS/BSS) 等后台功能。

有多种工作模式可供选择,提高了软件在整个运行环境中的复用率,减少了对网络运营商的平台验证要求。

面向网络优化的第四代英特尔® 至强® 可扩展处理器推出中等内核数 (Medium Core Count, MCC) 和超多内核数 (Extreme Core Count, XCC) 两种配置。MCC 处理器每路配备 24-32 个内核,功耗为 165-205 W;XCC 处理器每路配备 52 个内核,功耗为 300 W。

内置于 MCC 和 XCC 处理器中的加速器可分别加速数据传输和压缩,从而实现更高的网络性能;可提升查询吞吐量,从而实现响应更加迅捷的数据分析;同时还可卸载调度和队列管理,在内核之间实现工作负载的动态平衡。为保证加速器能为开发人员所用,英特尔为生态系统提供多种支持,从应用到底层要素(如驱动程序、库和 API),各种开源及专有软件支持,不一而足。

内置硬件加速器,满足分布式网络工作负载多种需求

第四代英特尔® 至强® 可扩展处理器引入了一种新范式,即将多种硬件加速器直接内置于 CPU。这种技术上的进步让网络运营商较以往更能基于通用系统量身定制执行方案,从而优化性能、能效和安全性。这种能力使 CPU 得到更高效的利用,提升了可持续发展能力与投资回报率,同时降低了电耗。

由于这些加速器内置于处理器中,因此网络运营商无需购置外部硬件加速器便可获得更高的吞吐量、更低的时延。这种架构具有明显的能效优势,因为它无需另行为外部设备供电,也无需通过 PCIe 总线在内核与加速器硬件之间传输数据。

此外,用户还可以在非高峰时段将通用硬件资源用于支持其他任务,如训练 AI 和机器学习模型或是进行数据分析。加速器与处理器内核毗邻,还省去了 PCIe 总线的传输时间,从而使敏感型网络工作负载的时延情况得到改善。

英特尔在软件支持方面投入巨大,为开发人员简化了内置加速器及其他英特尔® 架构特性和功能的实现。行业范围内与各种类型和规模的解决方案提供商的合作,为市场带来了获得广泛支持的解决方案。英特尔向开源社区贡献了相关代码,使面向全新英特尔® 架构的主流项目得到优化。

英特尔® 库和 oneAPI 软件开发工具根据可跨英特尔® 硬件平台(包括 CPU、GPU、FPGA 及其他加速器)执行的代码实现硬件优化。这些软件支持降低了准入门槛及成本,有利于软件提供商采用英特尔® 平台(包括第四代英特尔® 至强® 可扩展处理器)的全新加速功能。

 

英特尔® 高级矩阵扩展(英特尔® AMX):加速深度学习

事实证明,机器学习可以卓有成效地进行网络工作负载调优,实现效率与效能的提升,特别是在 SASE 部署和 vRAN 方面。英特尔® 高级矩阵扩展(Intel® Advanced Matrix Extensions,英特尔® AMX)是一种内置硬件加速器,可以通过加速深度学习算法的 核心——张量处理,显著提高推理和训练性能。

该技术包括 TILE 和 TMUL(平铺矩阵乘法),前者由一组可扩展的 2D 寄存器组成,每核最多 8 个 TILE,可存储比上一代产品更大的数据块;后者是一组矩阵乘法指令,是 TILE 上的首批算子。英特尔® AMX 使深度学习软件能够在给定时间段内完成更多的推理或者更迅速地获得洞察,因此可加速实现价值。

 

英特尔® 高级矢量扩展 512(英特尔® AVX-512):最新 x86 矢量指令集

经过多代技术发展,精度逐渐提升的矢量化技术有助于在更大的数据集上(包括在 SASE 和 vRAN 等网络工作负载中)更快完成计算。英特尔® 高级矢量扩展 512(Intel® Advanced Vector Extensions 512,英特尔® AVX-512)作为最新 x86 矢量指令集,构建于前几代技术的矢量处理能力基础上,可加速完成数据密集型工作负载。

借助两个 512 位融合乘加 (FMA) 单元,网络功能在 512 位矢量内的每个时钟周期可打包 32 次双精度和 64 次单精度浮点运算,以及八个 64 位和十六个 32 位整数,支持要求严苛的计算工作负载。与英特尔® 高级矢量扩展 2(Intel® Advanced Vector Extensions 2,英特尔® AVX2)相比,英特尔® AVX-512 使数据寄存器的宽度和数量以及融合乘加单元的宽度都增加了一倍。

 

英特尔® 动态负载均衡器(英特尔® DLB):优化跨多个内核的网络数据处理工作负载

随着网络流量管理日趋精细复杂,数据包处理等大的工作负载必须分配给多个内核来执行,支持视频流多路同步连接的 CDN 便是其中一个例子。英特尔® 动态负载均衡器(Intel® Dynamic Load Balancer,英特尔® DLB)可通过优化跨多个处理器内核的数据处理工作负载来提升系统整体性能。该加速器可随系统负载的变化动态地重新分配任务,并可以复位同时在多个内核上处理的网络数据包的顺序。英特尔® DLB 可以优化内核资源的使用,从而提高每节点的流量处理能力和系统的投资回报率。

英特尔® 数据流加速器(英特尔® DSA):提升流数据传输速度

数据传输和转换操作对包括 CDN 在内的流式网络工作负载的性能来说至关重要。英特尔® 数据流加速器(Intel® Data Streaming Accelerator,英特尔® DSA)能够卸载大规模部署中会产生开销的常见数据传输任务,藉此提升数据流性能。通过承担包括校验、内存比较和检查点在内几乎所有的数据传输操作,英特尔® DSA 使 CPU 内核资源避免产生与数据移入和移出内存、存储和网络子系统相关的开销。英特尔® DSA 优化了跨 CPU、内存和缓存以及各种附加内存、存储和网络设备的流数据传输。

 

英特尔® 数据保护与压缩加速技术(英特尔® QAT):提升加密和压缩速度

减少加密和数据压缩相关开销在提高包括 SASE、CDN 和 5G UPF 工作负载在内的网络性能上起着非常重要的作用。英特尔® 数据保护与压缩加速技术(Intel® QuickAssist Technology,英特尔® QAT)现在作为硬件加速器内置于第四代英特尔® 至强® 可扩展处理器中,可实现更快的动态数据加解密、更高效的数据压缩。

相对于前几代技术,这一技术的最新版本提升了加解密算法、安全哈希、公钥加密和压缩/解压缩的性能。通过从处理器内核上卸载上述任务,英特尔® QAT 释放出内核资源用于处理其他工作,因此提升了总吞吐量。英特尔® QAT 有助于实现零信任安全策略,在各种基础设施中对各个阶段(静态下、传输中、使用中)的数据实施保护,而无损关键工作负载的性能。

硬件支持满足不断演进的网络要求

面向网络优化的第四代英特尔® 至强® 可扩展处理器作为一个平衡的平台,通过全平台技术升级(包括提供一系列出色的内置硬件加速器)实现高吞吐量和低时延,能够助力网络运营商满足不断增长的需求。该平台可在多种重要的网络用例上创造价值,其中包括:

  • SASE 实现方案:得益于平台的网络、密码操作及 AI 处理能力,可满足 SASE 边缘入网点 (PoP) 部署和在公有云上托管 SASE 的要求。
  • 高密度 CDN借助更优的负载均衡、媒体流式传输和密码操作硬件加速等性能提升,每节点可支持更多会话,从而降低了 TCO。
  • 5G 核心网 (UPF) 部署:随着系统负载的变化,在多个 CPU 内核上高效分配网络处理工作负载,藉此优化系统性能,提高系统效率。与上一代产品第三代英特尔® 至强® 可扩展处理器相比,吞吐量提升高达 30%6
  • 5G vRAN 实现方案:为 mMIMO 流水线提供分布式单元和集中式单元优化以及高能效,帮助降低运营成本,提升可持续发展能力。与上一代产品第三代英特尔® 至强® 可扩展处理器相比,相同功耗范围内吞吐量提升高达 2 倍7

面向网络优化的第四代英特尔® 至强® 可扩展处理器在性能和能效上的提升,将使企业不断获得收益。每节点的大容量有助于降低设备的资本支出 (CapEx),而高性能功耗比则有助于降低运营支出 (OpEx),帮助企业达到可持续发展目标。平台为在数据量日益增长的未来实现网络创新提供了坚实的基础。