概述
作为驱动现代科学与工程发展的 “第三支柱”,或者说实验(经验主义)与数学(理论)的补充,科学计算在今天早已广泛应用于诸多学科,在它们的研究和创新中发挥着至关重要的作用。而随着科学计算的应用范围与深度的不断扩展,用户们对其整体性能或效率的需求也在持续水涨船高。
有鉴于科学计算平台一直以来对于 “均衡计算” 的追求——即需要尽力实现计算性能、内存/存储性能和 IO 互连性能的同步均衡提升,以缩小整个平台技术或性能 “短板”。但考虑到后两者与计算组件及其性能存在明显差距的事实状况,如何在算力提升的同时,为其匹配更为先进的内存/存储及 IO 组件与技术,就成为了科学计算应用生态链中所有创新者、参与者和应用者所共同关注的焦点议题。
作为行业上游核心产品与技术的提供商,英特尔从全局视角出发,正通过自身在处理器技术、科学计算及人工智能等领域的深厚积累,不断推进针对用户关键需求的产品研发进程。其在第四代英特尔® 至强® 可扩展处理器产品线中开辟集成高带宽内存(High Bandwidth Memory, HBM)的英特尔® 至强® CPU Max 系列,就是急用户之所急,解用户之所惑的切实举措。这一系列产品不但拥有更强的算力作为基础,能以内置的英特尔® 高级矢量扩展 512(英特尔® AVX-512)和英特尔® 高级矩阵扩展(英特尔® AMX)等技术来加速几乎所有主流科学计算及 AI for Science 类应用负载,还能通过集成 HBM,来定向提升部分关键科学计算应用及 AI 应用亟需的内存子系统性能。自该产品发布以来,众多高校与科研机构已在其实践中成功部署并应用了基于此处理器的计算平台,不仅实现了既定的性能目标,更显著提升了科研产出效率,部分机构的效率增幅高达数倍,有力推动了科研进程。
复杂多样的应用需要均衡且优化的平台
从宏观宇宙探索到微观粒子研究,从生物医药创新到能源环境优化,科学计算正以其卓越的数据处理、分析和模拟能力成为科研与技术创新的关键驱动力,不仅在前沿科技探索中发挥着关键作用,也有效促进了跨学科领域的融合与变革,并催生出一系列全新的学科分支、研究方法与科学范式。
作为科学计算的载体,高性能的科学计算平台也逐渐在科研机构、高校和企业的学术研究、模拟仿真和工程验证中担纲主力,并为诸多领域的突破提供强力支撑,成为知识边界拓展、科研技术革新中不可或缺的工具。
但科研领域中各类问题的复杂性,往往远远超乎人们的想象,也让科学计算平台在计算复杂度、处理性能、数据处理量、软硬件配合度、部署方式,以及稳定性/可靠性等方面与普通计算平台有着截然不同的特点与需求。如下表所示:
科学计算 | 普通计算 | |
---|---|---|
计算复杂度 | 涉及复杂的数学模型和算法,如计算流体动力学模拟、量子力学计算等都需大量的复杂计算。 | 网页加载、文档处理、多媒体播放等任务相对简单,计算复杂度较低。 |
处理性能 | 需要高性能的计算平台及可支持大规模并行计算的系统架构来支持海量的计算任务。 | 侧重于交互性和响应速度,使用标准的商业硬件。 |
数据处理量 | 在大规模基因组序列、凝聚态物理等场景中,海量的实验、模拟数据对存储系统和数据 I/O 能力提出艰巨考验。 | 处理的数据量通常较小,标准存储和 I/O 设备即可满足要求。 |
软硬件配合度 | 通常需要专门的软件工具和库来支持,且这些软件通常需要与硬件架构相互配合来实现最优性能。 | 运行通用软件,软硬件耦合度较低。 |
部署方式 | 需要依托并行性(同时处理多项任务)和分布式(在多个节点处理任务)的部署方式,以实现更大规模的集群化算力部署。 | 通常依托个人电脑、服务器或移动设备进行部署。 |
稳定性/可靠性 | 科学计算任务往往需要连续运行数小时、数天甚至数周,系统的稳定性和可靠性至关重要。 | 对稳定性和可靠性要求较低。 |
表 1 了解科学计算平台与普通计算平台的差异
正因如此,科学计算平台的构建,远非简单的硬件堆砌,而更像是一门融合了计算机科学与产品创造力的综合系统艺术。其不仅需要纳入硬件选择、软件工具、系统集成以及可扩展性等多方面的考虑,还需要根据使用场景实现在计算能力、数据存储和 I/O 上的性能均衡,以避免平台出现或明显或隐性的瓶颈,最终实现处理效率和整体性能的最优化。
为此,科研机构、高校和企业在构建科学计算平台时,需要更多地以均衡计算为目标,通过对软硬件选择、配置和优化方案的精心设计,来实现更强算力输出、更优内存性能和有针对性的软件优化,从而助力科研产出加速、科研效率提升。
内存正成为科学计算或智算平台强化的重心
在推进全局技术创新以实现均衡计算的过程中,对于内存子系统性能的强化,近年来已成为整个产业界的重心,这在很大程度上都是源于应用负载的急切需求,是因为科学计算应用需要处理和交互的数据集及模型正变得越来越大,例如:
- 计算流体力学领域,一些仿真模拟场景中所需处理的网格动辄以亿计;
- 气象预测领域,相关机构每年从卫星、飞机或观测站获取的气象数据多达 PB 级别;
- 生命科学研究相关的高通量测序技术中,单次测序生成的有效数据也可达数 GB 之多,且数据读写非常频繁;
- 制造行业在设计研发阶段开展高精度的仿真模拟,可大幅降低物理原型/实验的数量和成本,并提升设计质量与效率,缩短产品上市时间,但大规模仿真任务不但非常耗时,还很可能因为处理的数据量过大引发的内存带宽性能不足问题而造成中断。
总体来说,越来越多的科学计算应用,都越来越多地涉及大规模方程计算和海量数据处理,并引发了规模更大的数据交换和访存需求,这就使得内存子系统的性能成为了制约相关科学计算任务执行效率的 “靶点”。
而且现实中,科学计算的主力用户——高校与科研机构还正在直面新一轮应用负载的融合与创新趋势。引发这一变化的,正是近年来高速发展和普及的人工智能 (Artificial Intelligence, AI)技术,特别是其中以 Transformer 为基础的大模型技术与应用,它们不论是与传统科学计算应用融合演变成为 AI for Science 类的新兴应用(如生物、生命科学与制药专业都会涉及的用于预测蛋白质结构的 AlphaFold),还是直接以 AI 的本体应用出现在用户的教、学、研等场景中,都需要用户积极响应。目前比较流行的策略就是充分复用既有的科学计算平台,或者将科学计算平台升级成为智算平台来承载它们,在这一过程中,用户们同样需要解决这些应用,特别是大模型相关应用对于内存/显存子系统更为严苛的性能需求。
由此,科学计算平台的强化或优化的方向,都开始在算力之外更多地指向内存子系统,提升其性能,特别是带宽已成为整个平台演进的重头戏。
应运而生——首款集成 HBM 的 x86 架构 CPU
在用户现实需求强有力的驱动下,英特尔® 至强® CPU Max 系列于 2023 年正式发布。作为英特尔首款,也是 x86 架构 CPU 中首款集成 HBM 的产品,它能更有效地平衡计算子系统与内存子系统之间的性能差,释放和加速内存密集型科学计算的工作潜能。
其主要硬件特性或优势包括:
▪ 更优微架构带来的更强计算性能
全新微架构让该 CPU 拥有更加出色的产品规格与计算性能,包括最高 2.70GHz 的主频、多达 56 个 P-core(性能核),PCIe 5.0 以及 CXL 1.1 协议的支持,以及最多达 112.5 MB 的三级缓存 (LLC),这构成了其强劲算力输出的基石。
▪ 内置加速器带来更优科学计算与 AI 加速能力
与同时发布的第四代英特尔® 至强® 可扩展处理器相同,至强® CPU Max 也内置了多种针对特定应用负载的性能加速器或加速引擎。其中表现突出且已被业界广泛支持和应用的英特尔® AVX-512 和英特尔® AMX 技术,就可为科学计算和 AI 类应用提供额外的性能加成效果。
▪ 更强 “常规” 内存特性
至强® CPU Max 提供了对 DDR5 内存的良好支持(每路处理器可支持 8 个 DDR5-4800 内存通道),配合其更大的三级缓存,为内存性能的提升提供了更佳途径。新一代 DDR5 内存不仅频率更高、工作电压更低,还有远超 DDR4 内存的带宽与速度。与上一代 DDR4 内存 25.6GBps (3,200MHz)的带宽相比,DDR5 内存带宽可达 38.4GBps (4,800MHz), 提升幅度超过了 50%。1
▪ 集成 HBM 带来创新应用模式
集成总容量高达 64GB 的 HBM2e 内存,或者说为每个内核提供超过 1GB、最高达 2GB 的 HBM 容量,并凭借 HBM 在内存带宽上达到第三代英特尔® 至强® 可扩展处理器的 5 倍2,这就是至强® CPU Max 与其他至强® 可扩展处理器最明显的差别,也是其独到优势所在。
为了充分利用 HBM 带来的功能和性能优势,至强® CPU Max 系列可为科学计算平台和用户提供包括 “HBM-only”、“HBM Flat” 以及 “HBM 缓存” 在内的三种内存使用模式,以应对不同科学计算任务对内存容量和性能的多元化需求。
详见表 2:
内存模式 | 配置详情 |
---|---|
“仅 HBM” 模式 | 该模式支持内存容量需求不超过 64 GB 的工作负载以及每核 1 GB 至 2 GB 的内存扩展能力,同时无需更改代码和另购 DDR,即可启动系统。 |
“HBM Flat” 模式 | 该模式可为需要大内存容量的应用提供灵活性,它通过 HBM 和 DRAM 提供一个平面内存区域 (flat memory region),适用于每核内存需求大于 2 GB 的工作负载。使用该模式时可能需要更改代码。 |
“HBM 缓存” 模式 | 旨在提升内存容量需求大于 64 GB 或每核内存需求大于 2 GB 的工作负载的性能。使用该模式时,无需更改代码,且 HBM 可缓存来自 DDR 的事务。 |
表 2 英特尔® 至强® CPU Max 系列三种内存使用模式
与此同步,科学计算用户还可基于 NUMA 技术的亲和性对其进行优化,以充分利用 HBM 内存的带宽优势。
在这里了解更多至强® CPU Max 应用优化资源:
如欲了解更多面向英特尔® 至强® CPU Max 系列的调优和优化策略,请参阅:《英特尔® 至强® CPU Max 系列配置和调优指南》https://www.intel.cn/content/www/cn/zh/now/data-centric/xeon-cpu-max-series-configuration-tuning-guide.html
如欲了解使用英特尔® 至强® CPU Max 对 CAE 仿真分析、分子动力学及生命科学类科学计算应用进行优化和测试的策略、方法及实战指南,请参阅:《英特尔中国科学计算实战手册》https://www.intel.cn/content/www/cn/zh/high-performance-computing/overview.html
英特尔® 至强® CPU Max 系列具体型号与规格一览
SKU 编号 | 内核数 | 基频 (GHz) | 全核睿频 (GHz) | 最大睿频 (GHz) | 缓存 (MB) | TDP (W) | 最大可扩展性 |
DDR5 内存速度 |
英特尔® SGX 飞地容量(每个处理器) |
---|---|---|---|---|---|---|---|---|---|
9480 | 56 | 1.9 | 2.6 | 3.5 | 112.5 | 350 | 双路 | 4800 | 512 GB |
9470 | 52 | 2 | 2.7 | 3.5 | 105 | 350 | 双路 | 4800 | 512 GB |
9468 | 48 | 2.1 | 2.6 | 3.5 | 105 | 350 | 双路 | 4800 | 512 GB |
9460 | 40 | 2.2 | 2.7 | 3.5 | 97.5 | 350 | 双路 | 4800 | 128 GB |
9462 | 32 | 2.7 | 3.1 | 3.5 | 75 | 350 | 双路 | 4800 | 128 GB |
实战验证:加速科学计算与 AI for Science 应用
● 科学计算实战:
某国内知名高校致力于在一系列科研课题中借助科学计算平台来实现高质量的计算模拟方法,为凝聚态物理、超导体、磁性材料以及电池新材料的研究创新提供助力。
伴随研究深度与广度的扩展,以及计算规模与精度的提升,该高校原有科学计算平台的综合效能遭遇了严苛的挑战。以基于 VASP 的能带结构等计算任务为例,随着涉及的微观粒子数量不断增加(例如在大尺度材料计算模拟中),所需的算力、内存资源也会以几何级数增加。以 DFT 理论涉及的计算为例,计算量将达到微观粒子数量的三次方。
这意味着每个研究课题的计算任务都可能会在平台上占用更多计算节点和更长计算机时,使计算资源紧张问题进一步加大。为此,该高校与英特尔携手对其科学计算平台进行了升级迭代,希望通过达成以下三个目标,来满足日益紧张的科学计算需求。
- 更强算力输出:提供性能更强劲,且更易于灵活扩展和调度的算力,更好地满足呈几何级数增加的计算任务对算力的需求,为缩短科研项目周期、加速科研成果产出奠定基础;
- 更优内存性能:通过拥有更强性能的内存子系统,满足研究课题中日益扩展的计算和数据规模对更高内存带宽的需求并支持计算效率的进一步提升;
- 有针对性的软件优化:面向英特尔® 架构平台,基于新的硬件特性与优势,对其使用的 VASP、Quantum ESPRESSO 等科学计算软件开展专项优化,实现软硬件高效协同,挖尽硬件潜能。
从这些目标出发,新平台最终选用英特尔® 至强® CPU Max 9462 处理器作为核心算力引擎。这一方案除开算力上的考量因素外,还考虑到 VASP 和 Quantum ESPRESSO 等科学计算软件在计算过程中会产生大量内存数据访存动作,因此也需要平台有更强的内存带宽性能。来自某该师生的使用实践表明:“在许多科学计算任务中,虽然采用了更高主频的处理器,但性能增益并不明显,究其原因就是内存带宽成为了计算任务中的瓶颈。” 至强® CPU Max 系列则能通过对 DDR5 内存的良好支持以及其集成的 HBM 来更好地应对这一瓶颈。
与此同时,英特尔也根据该校实际科学计算任务的特性,利用英特尔® 编译器、英特尔® AVX-512 技术、英特尔® MKL、英特尔® MPI 库等工具实施了一系列有针对性的软件调优,并协助优化调整了 VASP 和 Quantum ESPRESSO 中的一些具体参数。
最终新平台在该高校多学科的科研任务中得以成功运用。来自师生一线的反馈表明,在 VASP 使用环境中,与原有计算节点相比,搭配了至强® CPU Max 的新节点在整体性能上有显著提升,对师生们提升科研效率以及加速实验数据、学术成果的产出增添了宝贵的助力。
● AI for Science实战
DeepMind 提出的 AlphaFold2 方案,当属目前热度和认可度双高的、基于深度学习技术的蛋白质结构预测方法。然而随着越来越多的科研机构、高校实验室和生物、医药企业开始借助 AlphaFold2 方案开展蛋白质结构预测,将其用于基于 AI 的新药研发、新诊疗方法探索、生物学新研究及生物信息学、合成生物学等一系列前沿科研和创新中,其在方案构建、部署和应用过程面临的挑战也在逐一暴露出来,包括:
▪ 构建平台时的成本挑战—— AlphaFold2 任务需要高质量强算力硬件基础设施的支撑,但 GPU 昂贵的市场价格及难以获取的现状,让用户不得不面临高昂的构建成本压力。
▪ 高通量计算和大规模推理压力—— AlphaFold2 在架构上的多项创新设计,在带来更优预测效果之余,也使整个方案从预处理阶段至推理任务都需要面对高通量的计算压力。而为加速成果的问世,用户也亟需提升推理效率来缩短预测时长。
▪ 大内存需求问题:在面向不同蛋白质的结构预测工作中,序列长度越长,张量运算规模与推理计算复杂度就越大,再结合更多序列的并行计算,其所需的内存容量也就越高。
为让 AlphaFold2 的应用能够真正普及,惠及更多科研机构、高校实验室以及生物制药企业的创新事业中,英特尔启动了针对自身架构的 AlphaFold2 方案构建及优化工作。
这一方案在硬件层面可搭配第四代英特尔® 至强® 可扩展处理器或至强® CPU Max 系列,值得一提的是后者不但能从容应对 AlphaFold2 带来的高通量计算与推理压力,还可借助集成的 HBM 为其提供更大的内存容量、更高的内存带宽及更低的功耗,来有效缓解推理任务中大张量运算带来的内存容量需求,实现对更长蛋白质序列的预测,并以更高内存带宽实现显著的访存通量提升,进而降低整体推理时长。
以这一硬件平台为基础,再辅以多种高效的软件优化方法,基于英特尔® 架构的 AlphaFold2 解决方案最终在实际测试中实现了端到端处理性能上质的飞跃。如图三所示,根据英特尔自己的测试:与基于第三代英特尔® 至强® 可扩展处理器且未经优化的方案相比,搭配至强® CPU Max 系列处理器且经过优化的方案可以实现高达 33.97 倍的通量提升3。而在另一项基于某公有云服务的测试中,基于英特尔® 架构 CPU 平台构建的解决方案在性能上获得了远优于某高端 GPU 平台的表现,也优于由 CPU + GPU 混合构建的方案。
更重要的是,得益于在内存容量、带宽方面的优势,并借助一系列为内存增量降耗的硬件方案与优化措施,这个基于 CPU 的方案还能有效缓解长序列蛋白质结构预测工作中面临的 “序列长度天花板” 问题。同时其用途还不仅仅限于预测单个蛋白质三维结构的 AlphaFold2 Monomer,亦可为能对多个蛋白质分子之间的相互作用及所形成的复合体结构进行预测的 AlphaFold2 Multimer 提供同样的优化效果。
在响应科学计算、AI for Science 应用需求的同时,还想尝试最新的大模型技术与应用?
在这里了解英特尔® 至强® CPU Max 系列加速大模型的行业落地实践:
• 医疗行业解决方案及用例:
《让病历内涵质控迎来大模型时代——惠每科技基于英特尔® 架构打造高性价比私有化落地方案》https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/cdss-cost-effective-implementation-solution.html
• 金融行业解决方案及用例:
《金证采用英特尔® 至强® CPU Max 处理器加速 K-GPT 大模型推理,助力企业提升投资价值》https://www.intel.cn/content/www/cn/zh/artificial-intelligence/kingdom-accelerate-model.html
再接再励,至强® 6 将带来全新高性能内存方案
集成 HBM 的英特尔® 至强® CPU Max 系列,为现阶段科学计算平台强化内存子系统,以及向均衡计算的迈进提供了新的助力,但客观来说,这款产品的出现和应用,在这一持续性的技术发展趋势的大浪中,不是开头,更不会是结尾。或许就像 1946 年时现代计算机先驱们在预见到计算机程序编写者和应用者对计算机体系中存储器容量及速度期望的无限性时所感叹的那样——“在理想情况下,我们希望存储容量无限大,这样任何一个特定的 bit 都可以立刻得到,但我们不得不认识到构建存储器层次结构的可能性,它们中的每一层都比其上一层有更大的容量,但是访问速度却慢一些。” 针对存储墙或 “冯-诺依曼瓶颈” 提出的内存与存储分层结构才是这一切的开端。如将目光放得长远,HBM 也只是相关技术演进中的一瞬或一个阶段,它也是率先应用于各种专用计算加速芯片或组件之上,在 CPU 上的集成堪称英特尔一次成功的创新实践,只是现在,大家也需要将目光投入下一步的创新举措,并期待它能为企业计算与科学计算平台在内存和存储上的强化带来怎样的变革。
这个未来,即将到来—— 2024 年下半年英特尔计划发布的至强® 6 处理器的性能核(Performance Core,又可简称为 P-Core)产品将为内存子系统的强化提供另一种解方。这款产品不但最高可集成 128 个强劲的性能核核心,并支持高达 12 通道的 DDR5-6400 内存,还会提供支持 MCR (Multiplexer Combined Ranks)内存的能力,支持范围包括 8000 MT/s MCR 或 8800 MT/s MCR 内存。鉴于 MCR 内存可以在 DDR5 内存的基础上将传输速度再翻一倍,它将在基于至强® 处理器构建的企业计算或科学计算平台中扮演强化内存带宽和性能的主力角色。
而且相比集成有 HBM 但其容量无法实现自由扩展的英特尔® 至强® CPU Max 系列,至强® 6 处理器性能核产品这种强化内存的方案不但拥有性能上的优势,还可以在容量上根据应用负载的实际需求来实现更为灵活的搭配。相信这种灵活性也将最终传递到用户端,让其在平台的均衡计算上实现更优的配置,或者在整个平台的性能、可靠性、成本、可用性和适配性等要素上实现更好的平衡。