用 CPU 加速 AI 推理和大模型应用概览

用 CPU 加速 AI 推理和大模型应用概览

大语言模型 (Large Language Model,LLM) 的快速扩容及参数规模的爆炸式增长带来了全新的算力需求挑战。“百模大战” 后,AI 应用呈现井喷态势,AI 推理的计算量在全局算力负载中的占比日益增大。
 

使用 GPU 进行 AI 推理面临多种挑战
 

  • 价格昂贵、一卡难求;
  • 耗电量大且需要构建新的管理和安全模型以及 IT 基础设施,带来高昂的 TCO;
  • 过早建设大规模独立算力平台可能会导致算力闲置与创新风险。

 

使用 CPU 进行 AI 推理平衡性能和经济性,实现更优的性价比 (Perf/TCO) 
 

  • CPU 作为通用计算资源更易获取;
  • 更易获得技术支持和维护;
  • 可复用既有平台的空闲算力,避免额外投资;
  • 无需引入异构硬件平台的设计或有关人才储备;
  • 基于既有的 x86 架构设计的的开发和部署方案更高效且稳定;
  • 可便捷地将 GPU 训练好的模型在 CPU 上推理,无需额外迁移成本。

不同大模型在不同性能要求下的 CPU GPU 的成本对比

CPU 适合的 AI 推理场景:
 

  • 场景1:需要内存大,超过了 GPU 的显存容量

CPU 算力平台在内存容量上的巨大优势,能够帮助用户以低成本轻松满足大内存推理场景的需求。

  • 场景2:GPU 请求量小,利用率低,采用 CPU 可降低起建成本

采用 CPU 推理,资源划分的粒度更小,可有效降低用户的起建成本

  • 场景3: GPU 紧缺,CPU 相比 GPU 更容易获取

CPU 更容易获取,且至强®️ 平台的算力可以满足业界普遍的 SLA 需求

第五代英特尔®️ 至强®️ 可扩展处理器内置 AI 加速器,轻松应对实战推理性能需求

  • 与第四代至强® 相比平均性能提 21%1
  • 5G 网络用户面功能(UPF)系统性能提升(网络)50%2
  • 运行参数量在 200 亿以下的 LLM 时,词元处理时延低于 100Ms3

英特尔® 至强® 可扩展处理器很好地支持大语言模型推理

英特尔提供全方位的 AI 软件支持,兼容主流 AI 软件且轻松迁移模型