英特尔® 至强® 可扩展处理器助力百度智能云千帆大模型平台加速大语言模型推理

英特尔® 至强® 可扩展处理器

英特尔® 高级矩阵扩展(英特尔® AMX)

大模型在各行业的广泛应用驱动了新一轮产业革命,也凸显了在 AI 算力方面的供需瓶颈。通过携手英特尔释放英特尔® 至强® 可扩展处理器的算力潜力,我们为用户提供了高性能、灵活、经济的算力基础设施方案,结合千帆大模型平台在大模型工具链、丰富的预置模型等方面的升级,我们将进一步推动大模型技术在各行各业的广泛应用,为企业智能化提供更多可能性。”

——谢广军,百度副总裁

百花齐放的大模型时代呼唤着更加经济、可及的 AI 算力资源,通过百度智能云千帆大模型平台,用户能够快捷、高效地部署基于 CPU 的 LLM 推理服务,并发挥英特尔® 至强® 可扩展处理器在 AI 推理方面的巨大价值。我们将进一步加速大模型的生态建设与软硬件创新,助力更多的用户利用大模型推动业务创新。”

——陈葆立,英特尔数据中心与人工智能集团副总裁,中国区总经理

概述

以文心大模型、Llama、GPT和ChatGLM 为代表的大语言模型 (LLM) 展示了人工智能 (AI) 的惊人潜力,其在艺术创作、办公、娱乐、生产营销方面的广泛应用激发了新一轮的产业革命。虽然 LLM 在各种自然语言处理任务中表现优越,但也带来了巨量的算力资源消耗。目前机器学习开源框架如 PyTorch 等虽然支持基于 CPU 平台执行计算,但 CPU 上的算力并没有被充分挖掘,通用框架软件基于 CPU 硬件的优化程度欠佳,其推理性能并不能满足真实业务的吞吐和时延需求。

百度智能云千帆大模型平台是一个面向开发者和企业的人工智能服务平台——一站式企业级大模型平台,提供先进的生成式 AI 生产及应用全流程开发工具链。它为开发者提供了丰富的人工智能模型和算法,尤其是丰富的 LLM 支持,能够帮助用户构建各种智能应用。为了提升基于 CPU 的 LLM 推理性能,百度智能云利用英特尔® 至强® 可扩展处理器搭载的英特尔® 高级矩阵扩展(英特尔® AMX)等高级硬件能力,助力千帆大模型平台在百度智能云上的 CPU 端的推理加速。

挑战:LLM 推理带来算力、资源利用率等挑战

目前开源的 LLM 网络结构主要以 Transformer 子结构为基础模块,其推理解码的过程是一个自回归的过程,当前词的生成计算依赖于所有前文的计算结果。LLM 推理过程中涉及大量的、多维度的矩阵乘法计算,在不同参数量级模型、不同并发、不同数据分布等场景下,模型推理的性能瓶颈可能在于计算或者带宽,为了保证模型生成的吞吐和时延,对硬件平台的算力和访存带宽都会提出较高的要求。

目前,行业还存在大量离线的 LLM 应用需求,如生成文章总结、摘要、数据分析等,与在线场景相比,离线场景通常会利用平台的闲时算力资源,对于推理的时延要求不高,而对于推理的成本较为敏感,因此用户更加倾向采用低成本、易获得的 CPU 来进行推理。百度智能云等云平台中部署着大量基于 CPU 的云服务器,释放这些 CPU 的 AI 算力潜力将有助于提升资源利用率,满足用户快速部署 LLM 模型的需求。

此外,对于 30B 以上规模的 LLM,需要采用高规格的 GPU 来进行推理,普通 GPU 无法支持。但是,高规格的 GPU 的成本较高、供货紧缺,对于离线场景的用户来说不是一个理想的选择。而针对该场景,CPU 不仅可以很好地支持 30B 及以下规模的模型,而且在性价比上更具优势。

解决方案:千帆大模型采用英特尔® 至强® 可扩展处理器加速 LLM 推理

百度智能云千帆大模型平台为企业提供大模型全生命周期工具链和整套环境,用户可以在百度智能云千帆上开发、训练、部署和调用自己的大模型服务。其提供智能计算基础设施、丰富的大模型、数据集和精选应用范式,以及包含数据管理、模型训练、评估和优化、推理服务部署、Prompt 工程等大模型全生命周期工具链,能够显著提升模型精调效果和应用集成效率。
 

  • 覆盖大模型全生命周期:提供数据标注,模型训练与评估,推理服务与应用集成的全面功能服务;
  • 推理能力大幅提升:可充分释放 CPU、GPU 等硬件的推理性能潜力,算力利用率大幅提升,满足不同规模模型的推理所需;
  • 快速应用编排与插件集成:预置百度文心大模型与国内外主流大模型,支持插件与应用灵活编排,助力大模型多场景落地应用。
     

百度智能云千帆大模型平台可以利用百度智能云平台中丰富的英特尔® 至强® 可扩展处理器资源,加速 LLM 模型的推理,满足 LLM 模型实际部署的需求。

图 1. 百度智能云千帆大模型平台可支持广泛的英特尔® CPU 选择

图 1. 百度智能云千帆大模型平台可支持广泛的英特尔® CPU 选择

新一代英特尔® 至强® 可扩展处理器通过创新架构增加了每个时钟周期的指令,有效提升了内存带宽与速度,并通过 PCIe 5.0 实现了更高的 PCIe 带宽提升。英特尔® 至强® 可扩展处理器提供了出色性能和安全性,可根据用户的业务需求进行扩展。借助内置的加速器,用户可以在 AI、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合,英特尔® 至强® 可扩展处理器能够帮助用户构建更加高效、安全的基础设施。

第四代和第五代英特尔® 至强® 可扩展处理器中内置了英特尔® AMX 加速器,可优化深度学习 (DL) 训练和推理工作负载。英特尔® AMX 架构由两部分组件构成:第一部分为 TILE,由 8 个 1 KB 大小的 2D 寄存器组成,可存储大数据块。

第二部分为平铺矩阵乘法 (TMUL),它是与 TILE 连接的加速引擎,可执行用于 AI 的矩阵乘法计算。英特尔® AMX 支持 INT8 和 BF16 两种数据类型以满足不同精度的加速需求。AMX 让英特尔® 至强® 可扩展处理器实现了大幅代际性能提升,与内置英特尔® 高级矢量扩展 512 矢量神经网络指令(Intel® Advanced Vector Extensions 512 Vector Neural Network Instructions,英特尔® AVX-512 VNNI)的第三代英特尔® 至强® 可扩展处理器相比,内置英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器将单位计算周期内执行 INT8 运算的次数从 256 次提高至 2048 次,是 AVX512_VNNI 同样数据类型的 8 倍。

图 2. 英特尔® AMX 可以更高效的实现 AI 加速

图 2. 英特尔® AMX 可以更高效的实现 AI 加速

英特尔® 至强® 可扩展处理器可支持 High Bandwidth Memory (HBM) 内存,高带宽内存 HBM 和 DDR5 相比,具有更多的访存通道和更长的读取位宽,理论带宽可达 DDR5 的 4 倍。虽然 HBM 的容量相对较小(每个 CPU Socket 64GB),每个物理核心仅可以平均获得超过 1GB 的高带宽内存容量,但对于包括大模型推理任务在内的绝大多数计算任务,HBM 可以容纳全部的权重数据,显著提升访存限制型的计算任务。经实测,在真实的大模型推理任务上可以实现明显的端到端加速。

百度智能云千帆大模型平台采⽤基于 AMX 加速器和 HBM 硬件特性极致优化的大模型推理软件解决方案 xFasterTransformer (xFT),进⼀步加速英特尔® 至强® 可扩展处理器的 LLM 推理速度。软件架构的详细信息如图 3 所示,其具备如下优势:
 

  • 通过模型转换工具,xFT 实现了对 HuggingFace 上开源模型格式的全面支持。
  • 软件的核心高性能计算库包括 oneDNN、MKL 以及针对 LLM 特别优化的计算实现,这些高性能计算库把对 AMX/AVX512 等加速部件的相关实现进行隐藏,上层的 LLM 基础算子实现以及网络层的实现都建立在此基础之上,形成了软件和硬件特性的解耦。
  • 最上层提供 C++以及 Python 接口方便测试,且由于全部的核心代码均基于 C++ 实现,因此集成进现有的框架非常便捷。

图 3. 英特尔® 至强® 可扩展处理器 LLM 推理软件解决方案

图 3. 英特尔® 至强® 可扩展处理器 LLM 推理软件解决方案

具体的优化策略如下:
 

  • 系统层面优化底层计算模块充分利用英特尔® AMX/AVX512 等硬件特性,高效快速的完成矩阵/向量计算;优化实现针对超长上下文和输出的 Flash Attention/Flash Decoding 等核心算子,降低数据类型转换和数据重排布等开销,显著提高计算并发度,降低访存开销;统一内存分配管理,降低推理任务的内存占用。
  • 算法层面优化:在精度满足任务需求的条件下,提供多种针对网络激活层以及模型权重的低精度和量化方法,大幅度降低访存数据量的同时,充分发挥出英特尔® AMX 等加速部件对 BF16/INT8 等低精度数据计算的计算能力。实测结果表明,使用量化处理后,计算密度较高的上下文处理部分(即第一个词的生成)和访问受限的部分均可实现显著加速。
  • 多节点并行:支持 Tensor Parallelism 等对模型权重进行切分的并行推理部署。使用异构集合通信的方式提高通信效率,进一步降低 70B 规模及以上 LLM 推理时延,提高较大批处理请求的吞吐。

图 4. 将模型转化为低精度数据格式可带来性能提升

图 4. 将模型转化为低精度数据格式可带来性能提升

在千帆大模型平台上实现 CPU 推理加速

当前千帆大模型平台已经引入了针对英特尔® 至强® 可扩展平台深度优化的 LLM 推理软件解决方案 xFT,并将其作为后端推理引擎,助力用户在千帆大模型平台上实现基于 CPU 的 LLM 推理加速。目前,使用该方案针对超长上下文和长输出进行了优化,已经支持 Llama-2-7B/13B,ChatGLM2-6B 等模型部署在线服务(参见表 1)。

Llama-2-7B 模型测试数据如图 5 和图 6 所示,第四代英特尔® 至强® 可扩展处理器上输出 Token 吞吐可达 100 TPS 以上,相比第三代英特尔® 至强® 可扩展处理器提升了60%。在低延迟的场景,同等并发下,第四代英特尔® 至强® 可扩展处理器的首 Token 时延比第三代英特尔® 至强® 可扩展处理器可降低 50% 以上。在将处理器升级为第五代英特尔® 至强® 可扩展处理器之后,吞吐可提升 45% 左右,首 Token 时延下降 50% 左右 1

图 5. Llama-2-7B 模型输出 Token 吞吐(越高越好)

图 5. Llama-2-7B 模型输出 Token 吞吐(越高越好)

图 6. Llama-2-7B 模型首 Token 时延

图 6. Llama-2-7B 模型首 Token 时延

方案效果

通过在千帆大模型平台中采用英特尔® 至强® 可扩展处理器进行 LLM 模型推理。方案效果如下:
 

  • 通过千帆大模型平台提供的全生命周期工具链,快速在英特尔® 至强® 可扩展平台中部署 LLM 模型推理服务;
  • 高效释放英特尔® 至强® 可扩展处理器的 AI 推理性能,降低 LLM 生成时延,提供更佳的服务体验;
  • 针对 30B 以下规模的 LLM 模型,皆可采用英特尔® ⾄强® 可扩展处理器结合 xFT 推理解决方案,获得良好性能体验;
  • 利用充足的 CPU 资源,降低对于 AI 加速卡的需求,从而降低 LLM 推理服务的总体拥有成本 (TCO),特别是在离线的 LLM 推理场景中表现出色。

展望

通过 xFasterTransformer 等软件方案,百度智能云千帆大模型平台充分利用了英特尔® 至强® 可扩展处理器的计算能力以及新一代 AI 内置加速引擎英特尔® AMX,成功解决了大模型推理中的计算密集型和访存受限型算子挑战,实现了基于 CPU 的 LLM 推理加速,助力用户更加高效地利用 CPU 资源。

未来,英特尔与百度将继续深化合作,推动大模型平台的发展,计划进一步优化 LLM 推理算法和实现,提升推理性能和计算资源效率,使得更多类型和规模的大模型能够在 CPU 平台上得到支持和加速。同时,双方将不断完善软硬件配套解决方案,提供更加全面和灵活的技术支持,满足用户在自然语言处理领域的不断增长的需求。

关于百度
百度是拥有强大互联网基础的领先 AI 公司。是全球为数不多的提供 AI 芯片、软件架构和应用程序等全栈 AI 技术的公司之一,被国际机构评为全球四大 AI 公司之一。百度以“用科技让复杂的世界更简单”为使命,坚持技术创新,致力于“成为最懂用户,并能帮助人们成长的全球顶级高科技公司”。

关于英特尔
英特尔(NASDAQ: INTC)作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。如需了解英特尔创新的更多信息,请访问英特尔中国新闻中心 newsroom.intel.cn 以及官方网站 intel.cn