激发硬件 AI 加速潜能,英特尔® AMX 助力阿里妈妈推荐系统性能升级

概述

  • 持续的算法创新和升级在为业务提供巨大增益的同时,也使阿里妈妈系统中的模型与特征处理复杂度与日俱增,进而对硬件算力等提出更高需求。为助力阿里妈妈提升智能推荐系统的准确性和效率,英特尔围绕第五代至强® 可扩展处理器这一算力核心,借助其内置的英特尔® AMX 技术,以及英特尔® oneDNN、算子融合等软件方案,为新方案提供面向 AI 推理的优化加速。

概述

作为人工智能(Artificial Intelligence,AI)在商业领域最成熟的运用之一,智能化的推荐系统(Recommendation System, RS)能根据用户的兴趣与行为,精准地开展个性化内容推荐。这不仅能减少用户搜索和筛选的时间,增强用户体验,还能助力企业制定更具效率的营销策略,提升转化率。因此,推荐系统已成为电商、广告、媒体、社交等一系列行业背后不可或缺的业务支撑系统。作为阿里巴巴集团旗下的数智营销/经营平台,阿里妈妈(https://www.alimama.com/index.htm)正依托其在推荐系统领域丰厚的技术与经验积累,通过不断创新迭代高质量推荐算法与模型,让商业营销更加简单、高效。

持续的算法创新和升级在为业务提供巨大增益的同时,也使系统中的模型与特征处理复杂度与日俱增,进而对硬件算力等提出更高需求。为助力阿里妈妈提升智能推荐系统的准确性和效率,英特尔围绕第五代至强® 可扩展处理器这一算力核心,借助其内置的英特尔® 高级矩阵扩展(Intel® Advanced Matrix Extensions,英特尔® AMX)技术,以及英特尔® oneAPI 深度神经网络库 (Intel® oneAPI Deep Neural Network Library,英特尔® oneDNN)、算子融合等软件方案,为新方案提供面向 AI 推理的优化加速。

用户引言

为实现用户与海量内容之间更为精准地匹配,我们的推荐系统和算法正在不断迭代和革新,对硬件基础设施的算力和 AI 加速能力也提出了更高的需求。第五代英特尔® 至强® 可扩展处理器不仅从主频、内存带宽、末级缓存等方面提升了算力,还内置了英特尔® AMX 来提供专门的 AI 加速,配合全方位的软件生态和优化方案,能有效提升推荐系统的推理性能。”

刘征宇

软件工程师

阿里妈妈

背景:推荐系统已成为商业世界不可或缺的核心能力

互联网时代的数据洪流,在为人们带来前所未有的便利与快捷之余,也给商业世界的运行模式带来了新的挑战。如何在海量,甚至过量的数据中高效洞察用户的需求,并为之提供精准的内容推送,已逐渐成为企业捕捉商机,从激烈的竞争中脱颖而出的关键。

智能化推荐系统正借助引入深度学习算法、大数据分析等技术,在用户需求与展示内容 (包括商品、服务、新闻、媒体以及广告等)之间构筑起精准的信息桥梁。对用户而言,推荐系统能基于对用户需求和内容的深度理解,推荐更具个性化的内容,提升用户的浏览、使用和购物体验。而对企业来说,推荐系统不仅能提高产品曝光度,也有助于营销策略的调整,实现更优的商业目标。

这些不可或缺的商业价值,让推荐系统在更多行业和领域中获得青睐,并迎来巨大的市场发展。一些数据表明,2024 年全球推荐市场规模或达 68.8 亿美元,并将在未来数年内保持 33% 的复合年均增长率(Compound Annual Growth Rate,CAGR)1

作为阿里巴巴集团旗下重要的数智营销/经营平台,阿里妈妈也通过不断革新的 AI 算法模型来实现更准确的点击率(Click-Through Rate,CTR)和转化率(Conversion Rate,CVR)预估,提升推荐效能。

例如在信息流广告业务中,阿里妈妈面向点击率和转化率预估,创造性地设计了 GwEN、DIN、CrossMedia、DQM、MTL、TDM、ESMM、DIEN 等深度学习算法模型,并在实战中取得了良好的效果,帮助入驻平台的企业有效提升了广告投放效果,增强了用户体验和营销效率。以某品牌的跨界新产品上市营销案为例2,借助需求偏好模型构建的新人群、新运营、新互动“三新策略”,让新产品获得了细分行业销量 TOP1,点击率提升 12%、互动率达 2 倍以上、成交率达 3 倍以上,实现了超出品牌方期望的投放效果。

为实现更精准的商品匹配和信息推荐,阿里妈妈推荐系统中的算法模型也在不断开展技术创新和系统演进,在为业务带来巨大效果增益的同时,也给核心计算引擎的计算能力、AI 推理性能等带来了更大的挑战。更复杂的模型结构、更丰富的组合特征,都将不断增大对硬件基础设施的算力需求。因此,如何在有限的算力资源及严格的时延约束下,充分发挥硬件性能,持续为推荐系统提供强劲的算力供给和 AI 加速,实现高效的服务能力,一直是阿里妈妈最为关注的焦点之一。

为帮助阿里妈妈应对上述挑战,英特尔为其推荐系统提供了第五代至强® 可扩展处理器作为算力核心,并借助处理器内置的 AI 加速引擎--英特尔® AMX,以及英特尔® oneDNN、算子融合等软件方案,为新方案提供面向 AI 推理的优化加速,使新方案能有效满足逐步增加的业务需求,为平台企业带来更优的推荐效果。

解决方案:英特尔产品软硬兼顾,为阿里妈妈推荐系统提速增效

 

  • 构筑精准信息桥梁的阿里妈妈推荐系统

如图一所示,典型的阿里妈妈推荐系统一般采用多阶段漏斗的架构,候选内容集合会经过召回、粗排、精排、重排四个主要阶段,最终变成向用户展示的推荐内容列表。每个阶段需要处理的数据量依次递减,而对应的 AI 模型参数量和计算复杂度通常会依次递增。推荐系统需要在无感知或低感知的情况下,在海量的内容集合中为用户选出最符合需求的数个或数十个推荐结果。

图一 典型的阿里妈妈推荐系统架构  

图一 典型的阿里妈妈推荐系统架构

在推荐系统中,初始可供选择的内容集合往往非常庞大,因此需要召回阶段进行第一轮筛选。针对召回阶段数据处理规模大、处理速度要求快的特点,阿里妈妈研发了诸如深度树检索(Tree-Based Deep Match,TDM)、向量近临检索等创新算法。其中,TDM 算法能使用任意复杂高阶的深度学习模型来计算用户与内容之间的关系,并结合基于树结构的高效索引,对全部内容集合进行全局最优匹配,使召回结果在多样性、精准性等方面都获得显著提升。

粗排、精排阶段,是将万级别的内容进一步筛选,依托大规模的用户行为数据,阿里妈妈迭代研发更新并引入了深度兴趣网络(Deep Interest Network, DIN)、深度兴趣演化网络(Deep Interest Evolution Network,DIEN)以及完整空间多任务模型(Entire Space Multi-Task Model,ESMM)等一系列业界领先的深度学习算法。

在最后的重排阶段,系统和平台企业可以根据全局最优原则,以及相关业务规则、营销策略等对展示内容的顺序进行微调,以提升点击率和转化率。此外,结合电商等特定场景,阿里妈妈也在商品创意理解与自动生成方面做了大量创新,如大规模图像行为理解与建模技术(CrossMedia)、自动文本生成技术等。

 

  • 强劲英特尔软硬件产品,为推荐系统提供性能加速

精准且个性化的智能推荐背后,是海量的高强度运算过程。根据阿里妈妈的估算,每次用户浏览都会涉及大约百亿次量级的浮点运算。同时,持续的技术创新和系统演进,也带来模型参数量和计算复杂度的大幅增加,这对背后的硬件基础设施带来了巨大的挑战。尤其对于直接影响用户感知的推理计算而言,时间过长就可能导致用户离开页面而流失。

为助力阿里妈妈应对这一挑战,英特尔为方案提供了第五代至强® 可扩展处理器作为推荐系统的算力核心。这一处理器具备更强的单核性能,也有着更高的处理器内核数量、更快的内存以及更大的末级缓存容量,可为各类 AI 应用提供强劲的算力支持。

例如在推荐系统中,有大量的模型参数需要被快速读取和计算,此时内存带宽就可能成为系统瓶颈。第五代至强® 可扩展处理器提供了高达 300MB 以上的末级缓存,使大多数模型参数能够保存在末级缓存中。由于更靠近处理器的末级缓存在时延性能上比内存高出一个数量级,因此推理速度也能获得大幅提升。

第五代英特尔® 至强® 可扩展处理器3

图二 第五代英特尔® 至强® 可扩展处理器  

图二 第五代英特尔® 至强® 可扩展处理器

与此同时,处理器每个内核都内置了英特尔® AMX 加速单元。与上一代深度学习加速技术相比,英特尔® AMX 的计算模式从一维向量演变为二维矩阵,因此更能充分利用计算资源,提升高速缓存的利用率,并避免潜在的带宽瓶颈。这种改进显著提高了每个时钟周期的指令数,在配合全方位的软件生态和优化方案后,可大幅提升推荐系统的推理性能。

图三 英特尔® AMX 架构  

图三 英特尔® AMX 架构

同时,英特尔® AMX 可支持 INT8 和 BF16 两种数据类型。在推理所需的大量矩阵运算中,使用 INT8 和 BF16这类低精度数据类型能在保持较高精度的同时大幅提高计算速度并减少存储空间。英特尔® AMX 在执行时,直接采用了分块矩阵乘法的方式,其内部所定义的 Tile 矩阵乘法 (Tile Matrix Multiply Unit,TMUL) 加速模块能直接对矩阵寄存器中的数据实施矩阵运算操作,因此低精度数据格式能使运算效率获得大幅提升,在保证精度影响最小的前提下加速推理过程。

在硬件产品之外,英特尔也为阿里妈妈提供了多项软件优化方案。

1)    英特尔® oneDNN加速方案

作为由英特尔开源的跨平台深度学习性能加速库,英特尔® oneDNN 能通过多种原语调用英特尔® AMX 来对矩阵运算进行加速。在双方的合作中,协同对系统中定制的 TensorFlow 框架进行了升级,加速算子计算性能。包括:

  • 加入新的编译选项来开启英特尔® oneDNN :--config=mkl_threadpool ;
  • 添加 --config=opt 选项,默认会打开 --copt=-march=native 的优化。

同时,为了在保证精度影响最小时更方便地使用 BF16,方案使用运行时环境变量来实现自动混合精度运算,设置如下:

  • TF_ENABLE_ONEDNN_OPTS=1 ;
  • ONEDNN_DEFAULT_FPMATH_MODE=BF16

 

2)    算子融合加速方案

除借助英特尔® oneDNN 调用英特尔® AMX 加速矩阵运算之外,对于其他算子,方案也使用英特尔® 高级矢量扩展 512 (Intel® Advanced Vector Extensions 512,英特尔® AVX-512) 提供的向量化指令集来实现并行计算。同时通过将算子融合,有效地避免不必要的中间变量读写,提升内存访问效率,实现多个算子的计算加速。

效果:全新处理器结合优化方案,实现显著吞吐性能提升4

为验证基于第五代英特尔® 至强® 可扩展处理器的阿里妈妈推荐系统的性能表现,阿里妈妈与英特尔一起,对其核心性能指标进行了测试验证。测试中,新方案使用英特尔® AMX,在 BF16 数据类型下进行了综合优化。

如图四所示,测试结果表明,针对广告推荐模型,基于第五代至强® 可扩展处理器,使用英特尔® AMX 和英特尔® AVX-512 优化后,在满足 SLA(Service-Level Agreement,服务等级协议),时延满足业务要求的前提下,相较上一代(第四代至强® 可扩展处理器)吞吐性能提升达 1.52 倍。

图四 第五代英特尔® 至强® 可扩展处理器吞吐性能提升  

图四 第五代英特尔® 至强® 可扩展处理器吞吐性能提升

未来展望

随着更多的业务场景、更优的算法模型在推荐系统中获得实践和落地,并在用户和企业之间联结起更好的信息纽带,对算力和 AI 加速能力的需求也在与日俱增。面向未来,阿里妈妈和英特尔将持续探索和评估新硬件、新技术在推荐系统中的运用,并计划以更多的硬件加速功能和软件加速方案,结合阿里妈妈实际业务中的场景需求,如离线风险控制、CPU 与 GPU 协同计算等,开展更深入的合作,共建良好的智能化推荐系统生态,帮助阿里妈妈业务端提升整体性能,降本增效,实现共赢。