科学计算对于科学发现、工程仿真和复杂系统的建模至关重要。与增加 CPU 内核数或其他软硬件解决方案相比,使用加速器能够更高效地提升性能。第五代英特尔® 至强® 可扩展处理器内置专用加速器,能够提升科学计算工作负载的性能和能效。
面向科学计算的英特尔® 加速器,为加速科学计算助力
多年来,面对科学计算领域更高算力、更广应用范围和更低成本的需求,各行各业的应对方式已发生了转变。各行各业越来越多地运用科学计算加速获取商业洞察、做出重要商业决策,同时降低成本。
内置面向科学计算的英特尔® 加速器的第五代英特尔® 至强® 可扩展处理器提供全新及经过改进的功能特性,能够为仿真和建模等快速增长的工作负载提升性能。借助英特尔® 高级矩阵扩展(Intel® Advanced Matrix Extensions,英特尔® AMX)、英特尔® 数据流加速器(Intel® Data Streaming Accelerator,英特尔® DSA)以及英特尔® 数据保护与压缩加速技术(Intel® QuickAssist Technology,英特尔® QAT)等内置加速器,第五代英特尔® 至强® 可扩展处理器可为目标工作负载提供更高的性能和效率,并且节约成本。
高达
1.31倍
LAMMPS 性能提升。第五代英特尔® 至强® 可扩展平台与上一代产品相比1
高达
1.31倍
LAMMPS 性能提升。第五代英特尔® 至强® 可扩展平台与上一代产品相比1
英特尔® 高级矩阵扩展
机器学习 (ML) 技术有助于提高工作负载的效率和效能,加速获取洞察。利用科学计算和 AI 解决方案来改善业务成果已成为行业大势所趋。专为提升 AI 性能而打造的英特尔® AMX 作为英特尔在 AI 方面深厚专业知识的代表,它将使采用科学计算和 AI 解决方案的客户受益匪浅。
英特尔® AMX 是第五代英特尔® 至强® 可扩展处理器配备的内置加速引擎之一,是 英特尔进一步提升深度学习推理和训练性能的利器。英特尔在前代英特尔® 至强® 可扩展 处理器的基础上,扩展了内置 AI 加速功能,使英特尔® AMX 能够转换大矩阵乘法运算。英特尔® AMX 还使用二维寄存器文件来存储更大的数据块。英特尔® AMX 专为加速 AI 工作负载而打造,是为科学计算和 AI 融合工作负载提供出色性能的关键加速器。
英特尔® 存储引擎:面向存储工作负载的内置加速器
将工作负载加速引擎内置到 CPU 有三大优势。首先,使用内置加速器解决了使用嵌入式加速卡和外部设备时必然产生的 I/O 瓶颈和时延问题。其次,与单纯使用 CPU 相比, 使用内置加速器能够更快地处理特定工作负载。第三,使用内置加速器,CPU 便可卸载 任务,为需要更高计算资源的工作负载留出余量。
英特尔® 高级矢量扩展 512(英特尔® AVX-512)是为科学计算加速的基础
x86 CPU 共用一个通用指令集架构 (ISA)。从 2011 年的英特尔® 高级矢量扩展(Intel® Advanced Vector Extensions,英特尔® AVX)开始,英特尔不断将 x86 基本指令扩展到新的工作负载,并逐代对其功能进行升级。如今,这些最初的英特尔® AVX 指令加上后续的英特尔® AVX-512 和英特尔® AVX2,可加速通用计算、AI 处理和数学计算密集型科学计算工作负载。
步骤越少意味着处理速度越快
英特尔® AVX-512 的“扩展指令”将常见的计算运算压缩、组合和融合到更少的步骤中。举个简单的例子:您可以指示 CPU 执行 3 x 3 x 3 x 3 x 3 这样的计算,这个计算过程需要五个时钟周期。或者您可以创建一条 35 指令,使 CPU 能在一个周期内完成计算。英特尔® AVX-512 采用的就是后者这种逻辑,并将其应用于数百个针对特定任务的运算。英特尔® 至强® 可扩展处理器每内核多达 2 个融合乘加 (FMA) 单元,可以将乘法和加法合并为单个运算,从而提高计算速度。
英特尔® 数据保护与压缩加速技术
英特尔® QAT 是第五代英特尔® 至强® 可扩展处理器的内置加速器,能够通过卸载计算密集型工作负载来释放空间和降低成本。英特尔® QAT 通过加速密码操作、密钥保护和数据压缩,降低系统资源消耗。这样一来,大数据和数据库应用便可以实现更快的数据传输和更多的每秒操作次数。
英特尔® QAT 可以减少加密和压缩相关开销,这对于提升集群性能发挥着重要作用。这一技术通过提升加密和数据压缩性能,并减少数据占用空间,来增加每个内核所服务的客户端数量。
英特尔® 数据流加速器
将数据移入和移出内存、存储和网络子系统对 CPU 来说是一大负担。
英特尔® DSA 是内置于英特尔® 至强® 处理器的加速器,可通过优化流数据的传输和转换操作,大幅提升存储、网络和数据密集型工作负载的性能。英特尔® DSA 有助于加速数据在 CPU、内存和缓存以及各种附加内存、存储和网络设备中的传输。
通过将 Open vSwitch (OVS) 卸载到英特尔® 基础设施处理单元(Intel® Infrastructure Processing Unit,英特尔® IPU),客户可以进一步提高性能和优化 CPU 效率。
第五代英特尔® 至强® 可扩展处理器原生支持科学计算加速功能
科学计算加速技术的核心基础已内置于每个英特尔® 至强® 可扩展处理器,可与大多数软件程序配合使用。科学计算客户几乎毫不费力就能从这项技术中获益。
英特尔® HPC 工具套件是英特尔® oneAPI 基础工具套件的附加组件,用于构建科学计算应用,使用的新技术涉及矢量化、多线程、多节点并行化和内存优化等方面。该工具套件包括基于开放消息传递接口 (Open MPI) 库的集群分析和调优工具。此外,英特尔® oneAPI 数学核心函数库还面向英特尔® CPU 和英特尔® GPU 提供了经深度优化、快速且完整的数学函数库。
性能提升,迎接科学计算新时代
随着科学计算的应用范围不断扩大、成本不断降低,科学计算资源的相对价值将呈指数级增长。曾经只有国家实验室和全球性的制造商才能拥有的算力正逐步通过云实例和混合科学计算集群为其他用户所用。面向科学计算的英特尔® 加速器可助力全面提升科学计算性能,使更多企业和机构能够获得所需的计算资源,更快地取得新发现、进行创新并进入市场。
借助英特尔® 至强® 处理器内置的面向科学计算的加速器,从容应对各种要求严苛的计算任务。
英特尔® AMX 带来显著性能提升
第五代英特尔® 至强® 可扩展处理器与第三代英特尔® 至强® 可扩展处理器对比
高达
9.9倍
的实时自然语言处理推理 (BERT-large) 性能提升和高达 7.7 倍的每瓦性能提升。内置 AMX BF16 的第五代英特尔® 至强® 处理器与第三代英特尔® 至强® 处理器的比较结果2
高达
9.9倍
的实时自然语言处理推理 (BERT-large) 性能提升和高达 7.7 倍的每瓦性能提升。内置 AMX BF16 的第五代英特尔® 至强® 处理器与第三代英特尔® 至强® 处理器的比较结果2
高达
2.3倍
的性能提升。第五代英特尔® 至强® 可扩展处理器与第三代英特尔® 至强® 处理器在 GPT-J 上的首个词元时延 (int8) 的比较结果3
高达
2.3倍
的性能提升。第五代英特尔® 至强® 可扩展处理器与第三代英特尔® 至强® 处理器在 GPT-J 上的首个词元时延 (int8) 的比较结果3
想要立即在云端或在自有基础设施上加速科学计算工作负载?第五代英特尔® 至强® 可扩展处理器,为您强势助力。详情请访问 intel.cn/hpc。