中国电信

中国电信携英特尔积极探索基于至强®️ CPU 平台的网络大模型推理算力方案

中国电信研究院:张乐、曾宇、时晓厚、段含婷、宋雅奇、王宇桐

英特尔(中国):王海宁、温炜、马轶慧、周姗、段敏

概述

  • 中国电信携手英特尔,引入第五代至强® 可扩展处理器,借助其 AMX、AVX-512 等 AI 加速技术,为中国电信网络大模型推理构建基于 CPU 的算力方案,并在各个应用场景中的生成时延均小于 100 毫秒。

概述

大语言模型(Large Language Model,LLM,以下简称“大模型”)作为人工智能(Artificial Intelligence,AI)领域的突破性技术,正凭借其强大的表示能力和泛化能力,为各行业提供强力支持。作为中国领先的电信运营商之一,中国电信也依托其丰富的业务场景需求和海量的网络数据与知识,自主研发并推出信息通信领域的首个网络大模型——中国电信网络大模型,用以提升其云网环境下的网络自智水平。

目前,中国电信网络大模型已在中国电信现网各省公司实现规模落地,并深度嵌入到中国电信集团及省 OA(移动端)、中国电信大模型平台(Web 端)等现网系统,完成全网部署。通过大小模型协同,促进省内自智等级提升,辅助省公司一线人员完成综维、装维,减少人为错误,解决现网实际问题,为全网运维/运营人员提供相应能力,使运维效率提高约 10%1,降本增效明显。

2023 年底,“中国电信网络大模型-知识管理平台”顺利完成了中国权威测试机构组织的第四轮知识构建与管理模块全能力域评估,获得 4+ 级证书,成为电信行业首个通过评估并获得 4+ 级认证的单位。2024 年 5 月,“网络大模型赋能云网运营的创新实践”获得国际电信联盟“人工智能惠及人类应对可持续发展目标的挑战”创新 AI 优秀案例。此外,在 MWC24 会议上,中国电信网络大模型还引起了国内外运营商的广泛关注。

随着大模型应用在现网的逐步推广,大模型推理能力下沉到省公司成为必需。而 GPU 算力方案面临市场紧缺、价格高、功耗高、需要专用服务器等挑战,成为中国电信大模型在省内大规模部署的难点之一。为应对大模型推理的性能与经济性等挑战,中国电信研究院联合英特尔,将 CPU 平台引入大模型推理算力方案。新方案采用第五代英特尔® 至强® 可扩展处理器,借助其内置的英特尔® 高级矩阵扩展(Intel® Advanced Matrix Extensions,英特尔® AMX)、英特尔®️ 高级矢量扩展 512(Intel® Advanced Vector Extensions 512,英特尔®️ AVX-512)等 AI 加速技术,结合英特尔开源的 xFasterTransformer (xFT) 分布式推理框架等 AI 软件工具,为中国电信网络大模型构建性能强劲,且在经济性、可用性和绿色节能方面表现卓越的推理算力方案。同时,为更好地将大模型推理能力延伸至边缘 / 用户现场,新方案选用了符合 OTII (Open Telecom IT Infrastructure-Extension,开放 IT 基础设施) 标准的边缘服务器,以满足各类应用场景即时 / 近即时的处理需求。

中国内权威测试机构实验室测试结果表明,使用 CPU 平台(基于第五代英特尔®️ 至强®️ 可扩展处理器)进行大模型推理,在各个应用场景中的生成时延可小于 100 毫秒,在符合运营商应用性能需求的同时,也可大幅降低推理成本和服务器能耗,有助于中国电信大模型在省内的推广落地。

用户证言

“随着中国电信网络大模型在现网的规模应用,其推理的算力需求也随之大幅增加,而 GPU 算力方案面临着巨大成本等挑战。中国电信与英特尔联合构建的基于第五代英特尔® 至强® 可扩展处理器 x86 架构 CPU 算力方案,在中国电信网络大模型多个运维场景推理任务中运用,辅助生成时延小于 100 毫秒,符合业务响应时间要求;同时,也进一步在经济性、可用性和绿色节能性等方面做了大量验证,共同推进产业生态建设。”

张乐

网络大模型项目总监

中国电信

背景与挑战:中国电信网络大模型推理需平衡性能与成本

行业大模型凭借其出色的学习能力、强大的表示和泛化能力,以及针对行业特点进行的专业化增强,正在越来越多的领域得以成功应用,充分展露其巨大的潜力和商业价值。在信息通信领域,随着中国电信等电信运营商逐步向智能数字服务提供商转型,新一代云网融合环境对网络运营智能化的需求日益增长,正推动运营商们借助行业大模型来化解在运维、运营、安全、数据分析以及管理等方面面临的新挑战。

依托丰富的业务场景需求、海量的网络数据知识优势,以及雄厚的云、网及 AI 技术积累,中国电信在业界率先发布中国电信网络大模型,并借助电信行业专属多样化语料库、高效的对话管理机制、高质量语料自动生成与多路检索增强生成能力等一系列面向云网环境运营需求的关键技术与创新能力,以及多种形式的模型即服务(Model as a Service,MaaS)能力,为运营商网络的“规、建、维、优、营”全生命周期赋能。

在实际的应用过程中,大模型的推理速度快慢与精度高低都会影响使用体验,特别是在网络排障这类争分夺秒的应用场景中,推理效能不足会带来巨大的生产压力。与此同时,持续的技术创新和系统演进,也会使模型参数量和计算复杂度增加,这些都给 AI 推理算力平台的性能提出了更为严苛的要求。

因此,在构建大模型推理算力方案时,中国电信需要充分考量全国各省的网络运维和管理人员在使用网络大模型执行云网运营、参数调配、故障处置等应用时所承受的巨大并发推理压力和性能要求。就性能而言,业界一般认为生成时延低于 100 毫秒是使用者能够接受的性能阈值(在聊天机器人中实现 100 毫秒以内的单词生成,这基本超过了人的阅读速度,对话就显得流畅且自然),方案需要满足该性能需求。

GPU 作为目前业界主要智能算力类型,虽然能为大模型推理提供充足算力,但使用其构建推理方案会面临建设成本高、获取渠道有限制等多因素的挑战。中国电信对于“降本增效”的诉求使其需要寻找兼顾性能与经济性的算力方案。

使用 GPU 构建大模型推理方案面临的挑战

-  受市场紧缺、价格高、功耗高、需专用服务器等因素的影响,GPU 算力方案不仅会带来巨大的成本压力和能耗,且 GPU 平台在各省公司层面的部署并不广泛,不利于大模型的规模化应用;
-  特定应用场景下,网络大模型面临着长输入输出、大 Batch Size,以及多种模型同时在线等情况,其运行过程对内存容量有较大需求,而 GPU 方案往往缺乏足够的内存容量。

解决方案:基于第五代至强® 的 CPU 算力方案为中国电信网络大模型提供高效能推理

CPU 在传统上被视为更适于 AI 负载中的通用计算,例如大模型应用的前期数据准备、知识库的存储和处理等工作。随着更多 AI 加速技术嵌入 CPU,以及围绕 CPU 平台的 AI 生态逐步完善,CPU 平台所具备的多项优势使其能在满足大模型推理性能的同时,又可兼具成本、绿色节能等方面的优势。

使用 CPU 构建大模型推理方案的优势

-  CPU 作为通用计算资源更易获取;
-  无需引入异构硬件平台的设计或有关人才;
-  更易获得技术支持和维护;
-  基于既有的 x86 架构设计的开发和部署方案更高效且稳定;
-  可复用既有平台的空闲算力,避免额外投资;
-  可便捷地将 GPU 训练好的模型在 CPU 上推理,无需额外迁移成本;
-  CPU 有着更完备的能耗管理,更利于绿色节能。

基于这些优势,中国电信联合英特尔,将英特尔®️ 至强® 可扩展处理器引入中国电信网络大模型的基础算力平台,积极探索基于 CPU 平台的大模型推理方案,化解大模型推理能力下沉到省公司的挑战,并为满足各行各业对大模型推理算力的迫切需求探索新路。

如图一所示,方案使用第五代英特尔® 至强® 可扩展处理器作为算力核心。通过其内置的英特尔® AMX、英特尔®️ AVX-512 等 AI 引擎提供的加速能力,中国电信网络大模型能通过分类预测、知识生成、方案撰写、根因分析等能力向上打造智行云网大脑。大脑以故障推理、业务逻辑以及智能交互等多个引擎为驱动力,在流量预测、异常检测、故障管理等云网场景中实现隐患自动发现与维护、故障自动隔离以及云网事件自动处置等网络运营智能化能力。各级运维人员接入后,可以通过知识问答、信息筛选和总结等交互方式,直接使用大模型的推理结果。

图 1  基于 CPU 平台的中国电信网络大模型推理算力方案架构  

图 1  基于 CPU 平台的中国电信网络大模型推理算力方案架构

■   第五代英特尔®️ 至强® 可扩展处理器实现高效的大模型推理的技术关键要素

面对高强度、高并发的大模型推理需求,第五代英特尔® 至强® 可扩展处理器不仅具有更多的内核数量、更强的单核性能和更大的三级缓存(LLC)容量,还可凭借增强的内存子系统,以及全面的 AI 加速环境来为大模型提供强劲的推理算力支持。

图 2  第五代英特尔®️ 至强®️ 可扩展处理器  

图 2  第五代英特尔®️ 至强®️ 可扩展处理器

更大的三级缓存,消除内存瓶颈

在传输故障处置方案推荐等应用场景中,有大量网络相关的数据需要被快速读取和处理,网络大模型面临着长输入输出(例如超过几 K 的输入输出)、大 Batch Size(例如大于 128)的需求。同时,针对不同的网络情况,可能也需要多种模型同时在线执行,此时的内存容量、带宽等就可能成为瓶颈。

第五代英特尔®️ 至强® 可扩展处理器提供了更大的三级缓存,使大多数模型参数能够保存在其中,使推理速度获得大幅提升;同时,每路处理器可支持 8 个 DDR5-4800 内存通道,能够释放和加速高内存需求推理计算时的工作潜能。

内置 AI 加速引擎,大幅提升推理效能

第五代英特尔®️ 至强® 可扩展处理器内置多个可加速大模型推理的 AI 引擎。英特尔® AMX 在运行时直接采用分块矩阵乘法的方式,其内部所定义的 Tile 矩阵乘法(Tile Matrix Multiply Unit,TMUL)加速模块能够直接对矩阵寄存器中的数据实施矩阵运算操作。因此,低精度的数据格式能极大提升运算效率,在保证精度影响最小的前提下加速推理过程。英特尔® AMX 支持 INT8 和 BF16 低精度数据类型,在矩阵运算中能有效提高计算速度并减少存储空间占用,更充分地利用计算资源,显著提高每个时钟周期的指令数,配合全方位的软件生态和优化方案,可大幅提升网络大模型在各应用场景中的推理效能。

■   英特尔 AI 软件工具助力大模型推理性能进一步提升

在软件层面,方案还引入一系列英特尔 AI 软件工具来提升推理性能、降低部署成本以及便捷地迁移模型。其中,xFT 作为英特尔开源的一款分布式推理优化框架,能够基于至强® 平台的指令集提供一系列卓有成效的性能优化解决方案,包括张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)等,并支持 BF16、INT8、INT4 等多种数据类型以及多种主流大模型,同时也支持多 CPU 节点之间的分布式部署方案,使超大模型在 CPU 平台上的部署成为可能。

如图三所示,英特尔提供多种 AI 软件工具,能够借助插件或开源工具链简单快捷地完成模型迁移,并实现对主流AI开发框架的全面兼容。这使得网络大模型应用在开发时无需额外修改代码即可实现软件从 GPU 到 CPU 的迁移,实现“一次编写,随处部署”。此外,英特尔还提供了 PyTorch、TensorFlow 等框架的库扩展,有助于相关应用方便地获得最新的软件加速能力。这些优势让中国电信网络大模型能在 CPU 平台上轻松地进行开发、部署,并实现高效的 AI 推理。

图 3  英特尔提供 Al 软件工具 全面兼容主流 Al 开发框架  

图 3  英特尔提供 Al 软件工具 全面兼容主流 Al 开发框架

■   贴近一线的边缘化部署和绿色节能加成

在产品形态和资源需求方面,如图四所示,中国电信将网络大模型部署到省公司乃至生产一线,这就需要数据在边缘侧进行即时/近即时处理。为了更好地满足业务需求并提升使用体验,中国电信选用了符合 OTII 标准的边缘服务器。

图 4  面向边缘/用户现场的中国电信网络大模型推理部署  

图 4  面向边缘/用户现场的中国电信网络大模型推理部署

边缘部署的环境复杂性通常比数据中心更高,有时甚至需要在极端恶劣的环境中部署。这意味着边缘服务器需要在功耗、体积、耐用性等方面符合特定要求,能在极端高低温、灰尘、腐蚀、震动冲击、电磁干扰等情况下保持稳定运行。得益于在配置规格、物理形态、供电及环境适应性等方面的设计,符合 OTII 标准的边缘服务器能够让中国电信根据工作负载精细地调整基础设施功能,无需任何改造大量的边缘机房即可支持边缘侧的大模型推理,实现性能和总拥有成本(Total Cost of Ownership,TCO)等方面的均衡。

此外,由于 CPU 的运行功耗低于 GPU,可以显著降低网络大模型运营所需的能耗。以第五代英特尔® 至强® 可扩展处理器为例,得益于多种创新技术和功能的加入,以及工艺制程与封装技术的不断升级,功耗获得持续优化,相比前一代产品的开箱即用能耗比提升高达 34%2,并可通过启用平台 BIOS 中经优化的电源模式,为特定工作负载进一步提高能效和节省成本,从而帮助中国电信更好地实现节能减排,贴近绿色算力的发展目标。

成果验证与应用成效:全方位赋能网络运营,提升客户体验

为验证大模型推理在 CPU 上的部署可行性,中国电信研究院联合英特尔在 ETSI ENI 行业规范工作组中,开展了至强®️ CPU 支持大模型推理的验证工作,推动业界一起关注为解决大模型算力需求的创新型解决方案。该 PoC 项目情况及验证结果由 ETSI 公开发布,详见 ETSI 网站3

同时,2024 年 6 月,中国电信携手英特尔,通过在标准服务器 / OTII 服务器上配置第五代英特尔® 至强® 可扩展处理器并使用 xFT 框架,分别部署中国电信网络大模型(13 B参数)和开源 Qwen 大模型(参数量 14B),由中国权威测试机构实验室进行了全方位的测试4

中国电信网络大模型的验证测试如表一所示,涵盖了规章制度、维护要求、维护问题等多个场景。
 

测试总结如图五和表二所示,表明中国电信网络大模型在吞吐量、首字符时延和生成时延方面都与规模相当的开源大模型性能表现一致,在 CPU 平台上的生成时延均小于 100 毫秒5,符合业务响应时间要求,可以满足电信网络运营维护等多场景推理应用需求。同时,中国电信网络大模型的生成内容也符合预期,性能精度达到了设计需要。测试结果也表明,基于现有 x86 架构的算力平台,可以满足运营商推理应用需求,有利于降低运营商在大模型算力领域的成本及资源需求。

图 5  中国电信网络大模型在不同应用场景中的性能表现  

图 5  中国电信网络大模型在不同应用场景中的性能表现

目前,中国电信网络大模型已深度嵌入到中国电信集团及省 OA(移动端)、中国电信大模型平台(Web 端)等现网系统,完成全网部署。其提供的 MaaS 的服务新模式,不仅能应用于中国电信 O 域和 B 域的态势感知、故障处置、应急保障、工单质量稽核、无线网优、流量预测以及知识检索等场景,也能从点到面,在网络运营全生命周期中实现全方位赋能,提升客户体验。

在实际应用中,中国电信网络大模型通过大小模型协同,为中国电信全网运维/运营人员提供助力,辅助一线人员高效完成综维、装维任务,提高效率,并已在中国电信全国多个省份试点中取得出色成果。
 

  • 省份一:方案实现了降低链路拥堵概率,割接时长同比缩短 30% 至 40%1,大幅减少割接风险;
  • 省份二:方案在 2250 余条链路中被用于判定链路中断后网络是否会发生拥塞,降低割接人工时长约 60%1
  • 省份三:方案降低割接风险约 80%1


同时,大模型也面向云网工程师,打造了涵盖知识问答、辅助助手和智能体三个维度的 3 类 12 个 AI 助手,实现问答答准率 85%1、方案生成可用率 90%1、故障处置效率提升 30%1、高危指令稽核效率提升 50% 的总体目标1

实践证明,基于 CPU 平台进行大模型推理,显著降低了大模型推理算力建设和运营成本,也再次打破传统的 GPU 推理思路。根据中国电信的测算,与主流 GPU 相比,CPU 平台方案可节省算力资源池建设成本超 40%1。此外,CPU 作为通用计算资源,更易获取且使用成本和维护成本都比较低,结合 CPU 平台在绿色节能方面的优势,为中国电信中国电信网络大模型的规模部署提供了创新、经济和可扩展的算力选择,为智算资源的建设提供了全新思路。

未来展望

在结合新一代云网环境,探索电信领域行业大模型的构建与实践中,中国电信正借助网络大模型的优势及基于英特尔® 架构的 CPU 平台所提供的强劲大模型推理能力,推动网络运营智能化,提升运营商网络的自智水平。基于 CPU 的网络大模型推理方案的提出与验证已证明,CPU 方案能兼顾应用性能与部署经济性,显著降低建设和使用成本,有助于大模型在各行各业的落地与推广,助力数字经济智能化发展。该创新方案还于 2024 年 9 月入围了 2024 年第二届“华彩杯”算力大赛决赛。

面向未来,中国电信将持续加强科技创新投入,与英特尔等合作伙伴开展更大范围、更深层次的全面合作,共同推动大模型推理在 CPU 上更多的部署和优化,为网络大模型在云网融合更多场景应用打造新典范,并赋能其在更多行业落地与规模推广,为经济社会的数字化转型贡献力量。