Intel® Xeon® Scalable Processors Family Framed Badge

金山云借助英特尔® 至强® 可扩展处理器加速大模型推理

概述

  • 金山云推出搭载第四代至强® 可扩展处理器的新一代云服务器,该云服务器支持英特尔® AMX 原生 AI 加速能力,并搭载了三款针对该云服务器调优的大模型镜像 StableDiffusion-AMX、LLaMa2-AMX 和 ChatGLM2-AMX, 能够有效提升大模型的推理性能,为客户提供卓越的计算体验与更低的入门门槛。

概述

大模型被认为是实现通用人工智能 (AI) 突破的重点底座,2023 年,大型语言模型 (LLM) 技术取得了重大突破,面向不同行业、领域的大模型呈现出百花齐放的态势,驱动着生成式AI (AIGC) 应用的快速发展。在大模型进入成熟期之后,模型推理成为大模型落地的关键,用户需要应对大模型推理所带来的算力、总体拥有成本 (TCO)、灵活性等挑战,以更好地挖掘大模型在业务创新、用户服务等方面的潜力。

金山云推出了搭载第四代英特尔® 至强® 可扩展处理器的新一代云服务器,该云服务器支持英特尔® 高级矩阵扩展(英特尔® AMX)原生加速能力,可帮助用户在云端实现“算力+模型”的一站式部署,并搭载了三款针对该云服务器调优的大模型镜像 StableDiffusion-AMX,LLaMa2-AMX 和 ChatGLM2-AMX,能够有效提升大模型的推理性能,为客户提供卓越的计算体验与更低的入门门槛。

挑战:快速发展的大模型带来算力挑战

人工智能模型的质量和规模呈指数级增长,统计数据显示,从 2017 年 到 2022 年,模型的规模增长了 15,000 倍1,典型的大模型参数规模已经达到了千亿甚至万亿级别。大模型带来的强大泛化与涌现能力展示了在互联网、金融、制造等领域的强大应用潜力,驱动着全球进入了大模型百花齐放的时代。《中国人工智能大模型地图研究报告》显示,2023 年,全球发布的大模型数量已经超过 200 个,其中中国发布的大模型已经达到了 79 个2

图 1. 模型的规模 5 年期间增长了 15,000 倍  

图 1. 模型的规模 5 年期间增长了 15,000 倍

快速膨胀的大模型参数规模以及大模型数量,凸显了大模型在模型训练、模型推理等方面遇到的算力及成本挑战。以模型推理为例,数据显示,当活跃用户数量达到 1 亿时,ChatGPT 每月处理提示的大模型推理成本将达到 4000 万美元,在 Bing AI Chatbot 中,Bing AI Chatbot 回复所有 Bing 用户产生的推理成本高达 40 亿美元3

大模型推理带来的高昂算力成本支出意味着,在将大模型投入到商业应用之前,企业需要认真思考其基础设施对于大模型推理的支撑能力,并从如下方面入手,化解大模型推理带来的挑战:
 

  • 采用高性能、高经济性的模型推理算力选项:大模型推理的极高成本意味着,用户需要将基础设施的经济性摆在重要位置,在目标设备中进行性能/价格比评估,从而寻找更适合推理的算力选项。
  • 提升模型推理的灵活性与敏捷性:部署专用的模型推理服务器会带来较高的成本支出,服务器应用也会存在局限性。对于希望在较小范围进行大模型推理的企业而言,其需要更加灵活的推理服务器,以在不同的工作负载间进行灵活切换。
  • 利用创新的 AI 硬件加速策略:将模型数据格式转化为 BF16、FP16 低精度的数据,通过调用英特尔® 至强® 可扩展处理器的 AMX、AVX-512 等硬件加速指令集进行计算加速,有助于最大限度地利用计算资源,提升模型推理速度。
  • 采用经过性能优化的模型镜像:模型镜像对于模型推理效率也有着较为显著的影响,经过针对性调优的镜像可充分调用硬件加速能力,实现推理性能的大幅提升。

解决方案:基于第四代英特尔® 至强® 可扩展处理器的金山云服务器加速大模型推理

金山云新一代云服务器搭载第四代英特尔® 至强® 可扩展处理器、支持英特尔® AMX 原生加速能力,并融合了金山云自主创新的加速技术,可有效提升模型推理性能。通过采用基于 CPU 的推理方案,该服务器不仅有效降低了推理任务的入门门槛,还可增强算力的分时复用性。

第四代英特尔® 至强® 可扩展处理器通过创新架构增加了每个处理器核心每个时钟周期的可执行指令数量,每个插槽多达 60 个核心,支持 8 通道 DDR5 内存,有效提升了内存带宽与速度,并通过 PCIe 5.0(80 个通道)实现了更高的 PCIe 带宽提升。第四代英特尔® 至强® 可扩展处理器提供了出色性能和安全性,可根据用户的业务需求进行扩展。借助内置的加速器,用户可以在 AI、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合,第四代英特尔® 至强® 可扩展处理器能够帮助用户构建更加高效、安全的基础设施。

第四代英特尔® 至强® 可扩展处理器在 AI 性能上更进一步。与英特尔在此前的英特尔® 至强® 可扩展处理器中提供的英特尔® AVX-512 不同,英特尔® AMX 采用了全新的指令集与电路设计,通过提供矩阵类型的运算,显著增加了人工智能应用程序的每时钟指令数 (IPC),可为 AI 工作负载中的训练和推理带来大幅的性能提升。

为更好地协助用户在云端实现“算力+模型”的一站式部署,金山云在 Stable Diffusion、LLaMa2、ChatGLM2 三款流行的大模型基础上,进行了针对性的调优,并发布了 StableDiffusion-AMX,LLaMa2-AMX 和 ChatGLM2-AMX 三款基于英特尔® AMX 优化后的模型镜像,可充分利用基于第四代英特尔® 至强® 可扩展处理器的金山云云服务器针对人工智能工作负载的加速能力。
 

  • Stable Diffusion:Stable Diffusion 是一种基于潜在扩散模型 (Latent Diffusion Models) 的文本到图像生成模型,能够根据任意文本输入生成高质量图像,同时还保留了图像的语义结构。Stable-Diffusion 一般需要数秒完成图片生成,生成的图像具有较高的逼真度和细节表现力。
  • LLaMa2:LLaMa2 是 Meta 发布的免费可商用版本的大模型,Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体。LLaMa2 相比第一代在预训练语料库大小上增加了 40%,Llama 2 接受了 2 万亿个 Token 的训练,精调 Chat 模型在 100 万人类标记数据上训练,上下文长度是第一代的两倍,并采用了分组查询注意力机制等优化结构。
  • ChatGLM2:ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B还升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练。相比于初代模型,ChatGLM2-6B 在 MMLU、CEval、GSM8K 、BBH 等数据集上的性能取得了大幅度的提升,并且将基座模型的上下文长度扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练。

模型优化实践与性能测试

金山云发布的 StableDiffusion-AMX、LLaMa2-AMX 和 ChatGLM2-AMX 三款大模型镜像基于英特尔® oneAPI 数学内核库(英特尔® MKL)和英特尔® 深度神经网络库(英特尔® oneDNN)底层计算库搭建,在满足计算准确率的条件下,应用了FP16 和 BF16 的低精度运算,同时融合了多头注意力算子、旋转位置编码在内的关键算子,可针对大模型的内存重用,使得模型的性能更优。

金山云的优化包括下面几个方面:
 

  • 应用了混合 FP16 和 BF16 的低精度数据进行计算加速:对于第一个 Token 的推理,采用 AMX-BF16 指令去加速矩阵计算以此达到更高的吞吐。对于后续的 Token 的推理,使用 AVX512-FP16 指令进行向量化计算加速,以此达到了更好的准确率。
  • 算子重写:对于算子的实现,采用 AVX 向量化指令达到加速效果。
  • Flash Attention 优化:使用 Flash attention 算法加速多头注意力操作。
  • Buffer 共享:最优化 Buffer 的使用,减少内存的 footprint。


金山云在新一代云服务器上对 StableDiffusion-AMX 镜像进行了推理性能的测试(测试数据图 2 和图 3 所示)。在使用 IPEX 2.0 BF16 优化之后,Stable-Diffusion 模型的推理性能提升了 3.97 至 4.96 倍4。在 LLaMa2-AMX 和 ChatGLM2-AMX 的性能测试中,英特尔的 Super-Fuse 加速方案能在大语言模型的推理性能上取得了 2.52 至 2.62 倍的提升效果4

图 2. Stable-Diffusion 模型优化前后性能对比  

图 2. Stable-Diffusion 模型优化前后性能对比

图 3. 大语言模型优化前后性能对比  

图 3. 大语言模型优化前后性能对比

收益

在 Stable Diffusion、LLaMa2、ChatGLM2 等典型大模型的推理中,基于第四代英特尔® 至强® 可扩展处理器的金山云服务器展现了强大的性能优势,能够为用户带来如下收益:
 

  • 更加便捷地拓展大模型应用:通过该方案,用户无需部署专用的 AI 推理服务器,而是可以在通用云服务器的基础上,通过调优的大模型镜像,快速、灵活地实现高效的模型推理。
  • 降低大模型推理的成本与门槛:在优化之后,Stable Diffusion、LLaMa2、ChatGLM2 大模型推理的性能有了显著提升,这有助于降低大模型推理的 TCO,获得更高的投资回报。
  • 灵活地满足各种应用负载要求:除了大模型推理之外,用户还可以调度金山云云服务器灵活运行其它负载,实现敏捷切换。

展望

随着大模型技术的快速创新,以及大模型生态的逐步完善,大模型行业将进入产品化落地的快车道,而高性能、高灵活性、低成本的模型推理能力则成为推动大模型落地的重要保障。英特尔正在构建包括数据中心 AI 系统、AI PC 在内的端到端 AI 解决方案,加速工作负载,并通过一系列开放、多架构的软件工具来简化 AI 工作流程,促进AI技术的广泛普及,支持行业全面解锁 AI 应用。

面向大模型的行业发展需求,英特尔将与金山云进行密切合作,一方面持续挖掘基于英特尔® 至强® 可扩展处理器的金山云服务器的模型推理潜力,另一方面探索推出采用多元算力芯片的广泛解决方案,满足更多场景中,用户对于模型训练、模型推理等应用的需求,推动 AI 应用的普及。

关于金山云

金山云创立于 2012 年,2020 年 5月在美国达克上市(股票代码:KC.NASDAQ);2022 年 12 月以介绍形式于香港交易所主板完成双重主要上市(股票代码:3896.HK)。依托金山集团 35 年企业级服务经验、金山云坚持技术立业,逐步构建了完备的云计算基础架构和运营体系。通过与大数据、数据库、边缘计算等先进技术有机结合,金山云在所深耕的行业提供超过 150 种解决方案,已广泛用于互联网、公共服务、数字健康健、金融等领域,累计为 500+ 优质客户提供高品质的云服务。以“做客户最信赖的云伙伴,携手共创数字未来”为使命,金山云将以敏捷创新的技术能力和对行业的深入理解,充分释放云计算的底座价值,助力数字化转型升级。

关于英特尔

英特尔 (NASDAQ: INTC) 作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。如需了解英特尔创新的更多信息,请访问英特尔中国新闻中心 newsroom.intel.cn 以及官方网站 intel.cn