AI 增强型 HPC
HPC 实施所要求的架构与 AI 非常相似。通常,两者都需要处理规模不断增长的海量数据集,以获取分析结果。因此,两者都需要高水平的计算与存储能力、大内存容量和带宽,以及高带宽网络架构。深度学习非常适合用于解决 HPC 这类包含海量多维数据集的问题。例如,对比传统方法,Quantifi 利用由英特尔提供支持的 AI,将金融市场衍生品估值的速度提高了 700 倍1,这使得常见的估值工作负载得以获取近乎实时的结果。
将 AI 应用于 HPC 有着广阔前景,AI 模型可以增强专家对数据集的分析,在相同准确度水平的前提下更快地获取结果。关键 HPC 用例已经借助先进的 AI 功能广泛受益,这些用例包括:
- 风险和欺诈检测等金融服务分析 (FSI)、物流和制造
- 工业产品设计、计算流体力学 (CFD)、计算机辅助工程 (CAE) 和计算机辅助设计 (CAD)
- 科学可视化和仿真,尤其是在高能物理领域
- 模式聚类、生命科学、基因组测序和医学研究
- 地球科学和能源勘探
- 天气预报、气象学和气候科学
- 天文学和天体物理
工作负载的变化
目前,许多 AI 用例局限于边缘或数据中心部署,如深度依赖智能摄像头进行 AI 对象识别的智能交通系统。支撑 AI 模型的算法已经变得愈发复杂,为科学探索、创新以及工业和商业应用提供更大潜力的同时,也提出了更高的计算要求。目前,我们所面临的挑战是:如何将 AI 推理扩展到 HPC 水平,或者说,从识别十字路口的交通模式升级到在数小时内完成以往需要数周时间才能完成的基因组测序。
幸运的是,在应对大规模 AI 挑战方面,HPC 业界已有数十年的经验。例如,他们非常了解,应对这类挑战需要更高的并行性、处理海量数据集的高 I/O 能力以及分布式计算环境的高效编排能力。此类 HPC 方面的能力有助于加速 AI 获取有效成果,例如通过深度学习推理实现专家级的判断能力,并将其应用于每秒数千次的事务、工作负载或仿真之中。
物理信息神经网络 (PINN)
AI 增强型 HPC 的一大用例就是将物理定律融入推理模型,以生成更符合真实世界的输出。在这些应用中,神经网络必须遵守已知的定律(例如质量、能量和速度守恒等),这样的神经网络被称为 “基于物理信息的神经网络” (Physics-Informed Neural Network, PINN)。PINN 可用于增强或替代 HPC 建模和仿真,用于流体流动分析、分子动力学、翼型和喷气发动机设计以及高能物理等用例。
例如,CERN 的研究人员使用内置在英特尔® 至强® 可扩展处理器上的英特尔® 深度学习加速技术(英特尔® DL Boost)来替代用于模拟粒子碰撞的蒙特卡罗仿真。对比软件仿真,低精度 int8 量化使处理速度提升多达 68,000 倍2,且准确度也略有提高。
数据增长推动 AI 在 HPC 中的应用
HPC 和 AI 工作负载的主要驱动力是数据的持续增长,以及随之而来的与 HPC 的大规模分析保持同步的需求。AI 算法日益复杂,尤其自引入深度学习方法之后,如今的 AI 可处理的数据集规模比前几年要大得多。基因组测序等领域正在产生惊人的数据量,麻省理工学院和哈佛大学旗下的博德研究所等机构每天都会生成约 24 TB 的新数据3。
AI 有助于加速关键工作负载,使得科学研究能够时刻保持在前沿。例如,英特尔与博德研究所合作开发了面向基因组分析工具包 (GATK) 的英特尔® 精选解决方案,该解决方案内置基于硬件的 AI 加速功能,从而为关键基因组学工具集推进 HPC 工作负载。通过使用该面向 GATK 的精选解决方案,博德研究所将 Burrow-Wheeler Aligner (BWA) 应用加速了 1.75 倍,将 HaplotypeCaller 应用加速了 2 倍3。
圣地亚哥超级计算机中心 (SDSC) 有着一个超大规模的学术型数据中心,是国际公认的数据使用、管理、存储和保护方面的领导者。这个以 AI 为中心的系统使科学家能够开发新的方法来加速训练和推理。您可阅读以下案例研究,了解更多信息:圣地亚哥超级计算机中心构建以 AI 为中心的 “Voyager” 超级计算机。
克服 AI 在 HPC 应用中面临的挑战
对于面向 AI 的 HPC 配置,在过去的 CPU 架构中,两者的需求往往需要权衡。AI 密集型工作负载通常会牺牲内核数来换取速度,而 HPC 工作负载则通常倾向于更高的计算性能、更多的内核和更大的内核间带宽。随着每一代新技术的不断改进,如今,英特尔提供内置加速功能的英特尔® 至强® 可扩展处理器等解决方案来应对这一情形。
以下重要的软硬件创新使 AI 解决方案的设计和构建变得更加容易:
- 英特尔® 至强® 可扩展处理器内置 AI 加速功能,可支持必要的高性能 AI。英特尔® 处理器特有的基于英特尔® AVX-512扩展的英特尔® DL Boost 矢量神经网络指令 (VNNI) ,可优化 AI 性能,助力在更短的时间内快速获取洞察。
- 英特尔® oneAPI AI 分析工具套件中的低精度优化库使 HPC 和 AI 平台的编码变得更加容易,同时也提高了性能并保持了准确度阈值。
- 面向机器学习的英特尔® FPGA 支持高度并行化,有助于加速从 HPC 和 AI 工作负载中获取结果和洞察。
- 英特尔还收购了 Habana Labs,并继续投资其专为大规模 AI 模型训练和推理而设计的 Habana 加速器。
- 面向 HPC 和 AI 融合集群的英特尔® 精选解决方案提供了一种在融合 HPC 平台上部署 AI 工作负载的途径,无需额外部署 GPU。
- AI 开发人员也正在改进他们的技术和代码,从而更有效地在 HPC 集群上运行 AI。新的优化正在从数据加载到预处理、训练和推理的各个环节中推动端到端的工作负载加速。
复杂性也是 HPC 和 AI 采纳过程中的一大阻力。企业要获得成功,需要专精于特定领域的技能和受过 HPC 和 AI 专业培训的人才。具有丰富经验的英特尔可以帮企业铺平道路,因为英特尔与 HPC 和 AI 业界均有着密切的合作,可与企业共享专业知识和想法。
结论:将 AI 的智能引入 HPC
通过新的技术和方法,越来越多的 AI 正被引入 HPC 应用中,此举提高了 AI 分析的速度和规模,能够助力更快获取结果和洞察。借助这些创新,数据科学家和研究人员可以利用 AI 来处理更多数据,打造更符合真实世界的仿真,并在更短的时间内做出更准确的预测。