大模型正在成为我们实现数智化转型的重要技术力量,为了化解算力瓶颈,我们采用了基于英特尔® 至强® 可扩展处理器的 LLM 训推一体化方案,这一方案结合多种软件优化措施,在多种 LLM 模型微调、推理任务中有着出色的表现。尤为重要的是,该方案在经济性、灵活性方面表现出色,为我们扩展 AI 目标提供了坚实的基础。”
天源迪科的验证结果证明,对于大量中小规模的 AI 模型微调、推理任务而言,英特尔® 至强® 可扩展处理器凭借在经济性、灵活性等方面的优势,能够成为用户的理想选择。我们将继续携手包括天源迪科在内的广泛合作伙伴,推动软硬件的协同优化与创新,在 AI 基础设施的性能、成本、扩展性等方面达到理想的平衡,更好地发挥 AI 技术的价值。”
概述
大语言模型 (LLM) 已成为加速社会经济数字化、智能化变革的关键技术。为了减少对计算资源和语料库的依赖,并加速大模型在实际应用中的部署,天源迪科通过在开源大模型基础上加入特定语料进行预训练,创建了针对特定场景的微调版本大模型,并在实际业务中应用模型推理,这种策略在经济性和灵活性方面通常表现出更强的优势。但同时,LLM 微调以及推理也带来了较高的算力需求,寻找兼具性能、灵活性、经济型的 LLM 算力方案至关重要。
天源迪科与英特尔紧密合作,构建了基于英特尔® 至强® 可扩展处理器的训练与推理一体化方案,赋能天源迪科的大语言模型业务场景。这一软硬件一体化方案具备高性能、高性价比、高灵活性的优势,能够满足天源迪科构建轻量级大模型微调与推理系统的需求,还能用于支持其他通用业务。
挑战
大模型被认为是实现通用人工智能 (AI) 突破的重要底座,近年来,以大语言模型 (LLM) 为代表的大模型技术取得了重大突破,面向不同行业、领域的大模型呈现出百花齐放的态势,驱动着生成式 AI (AIGC) 应用的快速发展。根据中国工信部数据,2023 年全年中国语言大模型市场规模实现较快提升,应用场景不断丰富,增长率突破 100%。据统计,2023 年,中国大语言模型市场规模为 147 亿元1。
快速壮大的大模型参数规模以及大模型数量,凸显了大模型在模型训练、模型推理等方面遇到的算力及成本挑战。目前,天源迪科正在强化在大模型领域的创新的投资,其致力于创建针对特定场景的微调版本大模型,并在实际业务中应用模型推理。在基础设施方面,天源迪科面临着以下性能挑战:
- 如何满足 LLM 微调及推理对于算力的要求:在大语言模型的微调和推理过程中,尤其是在微调阶段,算力需求巨大。这不仅涉及硬件提供的计算支持,还包括对向量化指令集和矩阵计算指令集的支持。
- 如何满足 LLM 微调对于内存规模的需求:在 LLM 微调过程中,需要存储中间激活值、梯度信息以及优化器(如 Adam、AdamW 等)参数更新的信息,这些都需要大容量的内存支持。实践表明,Batch size 不能设置得太小(通常需要大于 16),以避免因 Batch size 过小导致优化器梯度下降不稳定。同时,训练过程中会产生大量的中间激活值,所需的内存远远超过模型本身的大小。然而,传统的训练方案(如双路服务器,一机两卡/一机四卡/一机八卡)由于显存数量有限,难以满足模型微调的显存需求。
- 如何满足 LLM 推理对内存带宽的需求:LLM 推理任务对内存带宽有着严苛需求,因此,AI 训推服务器需要提供足够大的内存带宽与内存访问速度,传统的双路服务器在内存带宽与访问速度方面难以支撑模型的高效推理。
- 如何实现便捷扩展:为了提升服务器的算力、内存规模和带宽,模型训练和推理通常需要将多个 CPU socket 高效链接起来。而采用以太网作为连接方式存在速度慢、不稳定、多颗 CPU socket 的扩展性能差等问题。
解决方案:基于英特尔® 至强® 可扩展处理器的天源迪科训练与推理一体化方案
在大模型技术浪潮席卷千行百业的背景下,天源迪科加强了包括 LLM 在内的大模型技术的研发和落地,目前已经在营销(内容生成、培训)、客服(问答、知识库)、采购供应链(商品物料治理、价格管控)、风控、运营运维等领域形成产品化,并且赋能到通信行业、金融行业、央国企、政府等客户。
在本白皮书中,将主要以商业智能 (BI) 经营分析、客服投诉工单智能运维两个产品为例,验证基于英特尔® 至强® 可扩展处理器的天源迪科训练与推理一体化方案的性能表现。
• BI 经营分析
这一项目运用先进的大模型技术,对运营商的大数据 BI 经分系统赋能。通过人机语言交流模式,系统能够与用户进行多轮深度对话,实现自动学习与理解。根据客户特定的业务场景和需求,系统能够自动生成、展示并分析定制化报表,显著提升经分工作的智能性与效率。在技术层面,该项目基于强大的 qwen1.5-7B 基础大模型,并结合 BI 业务数据进行精细微调,以确保模型在项目中的准确性,为客户提供了更快、更精准的决策支持过程。
• 客服投诉工单智能运维
客服投诉工单智能运维产品旨在助力运营商客服部门高效处理海量投诉工单,实现从 “人工主导” 向 “系统智能处理” 的根本性转变。该产品能够自动获取并深入学习业务知识,智能分析各类投诉工单,准确提取用户信息,结合预设处理方案,进行自主分析与决策,最终生成详尽的处理报告和有效的解决方案。本产品的核心在于充分利用 Qwen1.5-14B-chat 的基础能力,将其在实际应用场景中落地,以实现对客服投诉工单处理流程的智能化升级与优化。
• 推理模型选择与性能指标
目前项目中需要的是大模型的自然语言理解、文本生成、角色扮演等能力,因此,天源迪科选择了 Qwen1.5-14B-chat 和 Qwen1.5-32B-chat 作为推理模型,这两个模型分别具有 140 亿和 320 亿参数,主要是考虑到它们在处理复杂任务时能够提供更丰富、更准确的响应;在消耗相对较少的资源的同时,能够带来更好的用户体验。
Qwen1.5-7B-chat 具有 70 亿参数,相比前两个模型参数较少,但仍然足够大以支持复杂的微调任务。选择它作为微调模型,是考虑到其在资源消耗和微调效果之间取得了较好的平衡。微调通常需要更多的迭代和计算资源,较小的模型可以减少这些需求,同时仍能在一定程度上提升模型性能。
天源迪科在分析后认为,LLM 算力基础设施在 1024input tokens 场景下,需要满足以下推理性能指标,才能充分满足实际应用所需。
• 采用英特尔® 至强® 可扩展处理器加速 LLM 推理
为了在性能、经济性、灵活性等方面实现平衡,天源迪科推出了基于第四代英特尔® 至强® 可扩展处理器的训练与推理一体化方案。第四代英特尔® 至强® 可扩展处理器通过创新架构增加了每个时钟周期的指令,每个插槽多达 60 个核心,支持 8 通道 DDR5 内存,有效提升了内存带宽与速度,并通过 PCIe 5.0(80 个通道)实现了更高的 PCIe 带宽提升。第四代英特尔® 至强® 可扩展处理器提供了出色性能和安全性,可根据用户的业务需求进行扩展。借助内置的加速器,用户可以在 AI、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合,第四代英特尔® 至强® 可扩展处理器能够帮助用户构建更加高效、安全的基础设施。
1.50x2 核数增加 1.50x3 内存宽带增加
2x4 PCIe 带宽提升 1.53x5 代际性能提升
此外,每颗 CPU 处理器均配置了 8 条 64GB 4800MT/s 内存条,以满足大规模语言模型 (LLM) 推理对内存带宽的高要求。
第四代英特尔® 至强® 可扩展处理器还内置了创新的英特尔® AMX 加速引擎。英特尔® AMX 针对广泛的硬件和软件优化,通过提供矩阵类型的运算,显着增加了人工智能应用程序的每时钟指令数 (IPC),可为 AI 工作负载中的训练和推理提供显著的性能提升。
第四代英特尔® 至强® 可扩展处理器支持主流机器学习和深度学习框架,如 TensorFlow、PyTorch 等,并利用英特尔® oneAPI Deep Neutral Network Library (oneDNN) 来进一步优化性能。英特尔还推出了针对大规模语言模型的推理和微调加速方案,以支持大语言模型微调及推理业务场景。
• 推理加速方案:xFasterTransformer
xFasterTransformer 是一种专为提升英特尔® 至强® 平台上大语言模型 (LLM) 推理性能而设计的优化解决方案。它通过分布式运算支持大模型的推理,并提供 C++ 和 Python API,便于集成。该方案简化了 CPU 部署流程,增强了鲁棒性,降低了运维成本,并通过显著的性能优化,如矩阵乘指令和向量化指令,进一步降低了部署成本。此外,它支持超长序列的上下文处理,提高了多任务混合部署的效率,满足不同模型精度的需求,并实现了更低延时的分布式推理,为用户提供流畅的体验,同时广泛支持各类主流大规模语言模型,如 LLaMa、ChatGLM、Baichuan、Qwen 等。
• 微调加速方案:Intel® Extension for PyTorch
Intel® Extension for PyTorch 是一种开源扩展,可优化英特尔® 处理器上的深度学习性能。许多优化最终将包含在未来的 PyTorch 主线版本中,但该扩展允许 PyTorch 用户更快地获得最新功能和优化。Intel® Extension for Pytorch 充分利用了英特尔® AVX-512、矢量神经网络指令 (VNNI) 和英特尔® AMX,将最新的性能优化应用于英特尔硬件平台。用户可以通过简易的 Python API,只需对原始代码做出微小更改即可在英特尔硬件平台应用最新性能优化。
测试:满足 LLM 模型微调与推理的性能要求
为了验证该方案的性能,天源迪科进行了测试。在测试中,一体机中的四颗英特尔® 至强® 金牌 6448H 处理器采用 UPI 全拓扑连接方式,张量并行推理方案下等同于有效地扩展了内存带宽。这一优势与英特尔® AMX 加速器一起,使得服务器最终在推理 7B/14B/33B 参数级别的模型时表现出高度的可扩展性,能够满足天源迪科实际业务对于推理性能的要求。
Qwen1.5-7B 模型在 BF16 精度下只使用一颗 6448H CPU (rank=1),batch size=1,Next token 时延为 63.06 ms,吞吐量为 15.86 token/s,可以满足天源迪科对于大语言模型推理时延的要求。
以下是 Qwen1.5-14B/33B 模型在 BF16 精度下,rank=4,batch size=1,不同 input length 下的时延测试结果。Qwen1.5-14B 和 33B 模型的 Next token 时延均小于 100ms,可以满足天源迪科对于大语言模型推理时延的要求。
表 2. Qwen1.5-14B 模型 LLM 推理测试结果
input-token | out-token | 总时延 | 首词时延 | 下一个词时延 | 下一个词 P90 时延 | 不包括首词的吞吐量 |
---|---|---|---|---|---|---|
64 | 200 | 6585.94 ms | 80.68 ms | 32.69 ms | 35.82 ms | 30.59 tokens/s |
128 | 200 | 6930.81 ms | 134.18 ms | 34.15 ms | 38.36 ms | 29.28 tokens/s |
256 | 200 | 7121.99 ms | 249.33 ms | 34.54 ms | 39.84 ms | 28.96 tokens/s |
512 | 200 | 7326.50 ms | 288.82 ms | 35.37 ms | 40.41 ms | 28.28 tokens/s |
1024 | 200 | 7684.96 ms | 531.39 ms | 35.95 ms | 41.80 ms | 27.82 tokens/s |
表 3. Qwen1.5-32B 模型 LLM 推理测试结果
input-token | out-token | 总时延 | 首词时延 | 下一个词时延 | 下一个词 P90 时延 | 不包括首词的吞吐量 |
---|---|---|---|---|---|---|
64 | 200 | 16989.55 ms | 168.36 ms | 84.53 ms | 92.34 ms | 11.83 tokens/s |
128 | 200 | 17090.98 ms | 262.90 ms | 84.56 ms | 90.49 ms | 11.83 tokens/s |
256 | 200 | 17100.75 ms | 450.30 ms | 83.67 ms | 91.36 ms | 11.95 tokens/s |
512 | 200 | 17462.92 ms | 572.15 ms | 84.88 ms | 93.47 ms | 11.78 tokens/s |
1024 | 200 | 17882.21 ms | 1194.37 ms | 83.86 ms | 92.16 ms | 11.92 tokens/s |
得益于对 Intel® Extension for PyTorch 的加持,以及强大的运算能力和超大内存,该一体机在 LLM 微调方面展现出强大的性能。本方案采用分布式数据并行结合 LoRA (Low-Rank Adaptation) 微调策略,有效减少了通信开销。以下是 Qwen1.5-7B 模型微调的结果:微调数据集大小为 1.6MB,训练精度为 BF16,sequence 长度为 1024,micro batch size 为 2。每个 epoch 的微调过程仅需 4.5 分钟。
表 4. LLM 微调测试数据
Intel (gradient_accumulation_steps=1) | Intel (gradient_accumulation_steps=8) | |
---|---|---|
epoch | 30.0 | 27.43 |
train_loss | 2.0049774133591427 | 2.005199639002482 |
train_runtime (unit: s) | 8130.014 | 5747.9408 |
train_samples_per_second | 1.026 | 1.451 |
train_steps_per_second | 0.129 | 0.021 |
Total optimization steps | 1050 | 120 |
收益
基于英特尔® 至强® 可扩展处理器的 LLM 训推一体化方案为天源迪科大语言模型任务带来了显著的收益:
- 满足中小规模模型的微调及推理算力需求:通过硬件构建与软件优化相结合,该 AI 训推一体化方案提供了强大的模型微调与推理算力支持。
- 更高的适用性与扩展性:该 AI 训推一体化方案能够灵活地支持大语言模型的微调和推理,以及其他通用业务,并实现更高的扩展性。
- 更高的性价比与投资回报:相较于专用的 AI 服务器方案,该 LLM 训推一体化方案具备高性价比和高可及性等优势,可助力用户获得更高的投资回报。
展望
大模型凭借其在泛化能力等方面的优势,得到了普遍的关注,赋能千行百业的数字化转型进程。为了帮助用户抓住大模型带来的产业发展机遇,英特尔正在构建包括数据中心 AI 系统、AI PC 在内的端到端 AI 解决方案,加速工作负载,并通过一系列开放、多架构的软件工具来简化 AI 工作流程,促进 AI 技术的广泛普及,支持行业全面解锁大模型等 AI 应用的价值。
面向大模型的行业发展需求,英特尔将与天源迪科进行密切合作,一方面持续挖掘基于英特尔® 至强® 可扩展处理器的训推一体机在模型微调、推理等方面潜力,为大模型应用赋能;另一方面探索采用多元算力芯片的广泛解决方案,满足更多场景中,用户对于模型训练、模型推理等应用的需求,推动 AI 应用的普及。
关于天源迪科
天源迪科是国内领先的产业互联网和大数据综合解决方案提供商,专注于利用当代最先进的 IT 技术推动企业和政府部门在管理和商业模式上的创新发展,为其提供综合解决方案,包括运营支撑、大数据、移动互联网解决方案等。公司以 “为客户创造价值、与客户共同成长” 为理念,致力于成为行业信息化应用的领导厂商和先进技术的引领者。
关于英特尔
英特尔 (NASDAQ: INTC) 作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。如需了解英特尔创新的更多信息,请访问英特尔中国新闻中心 newsroom.intel.cn 以及官方网站 intel.cn。