利用英特尔® 数据流加速器 优化实时视频传输

利用英特尔® 数据流加速器 优化实时视频传输

第四代英特尔® 至强® 可扩展处理器凭借更高的单核性能、更大的内存和 I/O,并在英特尔® 数据流加速器(Intel® Data Streaming Accelerator,英特尔® DSA)等内置加速器的助力下,进一步提高了视频处理工作负载的表现。英特尔® 媒体传输库 (Intel® Media Transport Library) 使用英特尔® DSA 和数据平面开发套件 (DPDK) 来优化视频传输,使每核支持的 60 fps 视频流数量增加 2.25 倍1

执行概要

数字视频随着新技术和新市场趋势的涌现不断向前发展。分辨率和码率的提高带来对一系列新连接标准的需求,尤其是对于互联网协议 (IP) 下视频传输标准的需求。连续几代媒体传输标准必须满足日益增长的高带宽内容需求,比如说,实时视频制作、4K 和 8K 视频流,以及增强现实/虚拟现实 (AR/VR) 和 360 度视频等新兴的沉浸式内容形式。视频基础设施必须满足这些不断升级的要求,同时还要在稳定的成本范围内提供出色的观者体验,方能保持竞争力。

英特尔® DSA 是第四代英特尔® 至强® 可扩展处理器中原生的高性能数据复制和转换加速器。它优化了高性能存储、网络、持久内存和各种数据处理应用中常见的流数据传输和转换操作。英特尔® DSA 可为数据传输和转换操作带来更好表现,同时还可释放 CPU 周期用于执行更高级别的功能。这一硬件平台还受益于英特尔® 以太网 800 系列网络适配器提供的高性能智能网络连接。

先进的软件优化和支持有助于使视频传输工作负载具备高吞吐量和低时延表现:

 

  • 英特尔® 媒体传输库简化了 ST 2110 标准的实施,同时满足了灵活性、可扩展性和成本方面的严格要求。它已针对第四代英特尔® 至强® 可扩展处理器进行了深度优化,因而可以利用处理器平台多项重大架构改进以及可实现流媒体硬件加速的英特尔® DSA。
  • DPDK 通过简化数据包处理流水线,进一步提升了基于英特尔® 媒体传输库的解决方案的吞吐量。

 

本解决方案简介将通过性能测试结果展示英特尔® DSA 与英特尔® 媒体传输库结合使用带来的优势,并说明将媒体分发工作负载迁移到基于第四代英特尔® 至强® 可扩展处理器的服务器的价值。

英特尔的实时视频传输解决方案

英特尔的实时视频制作、处理和分发解决方案包括一系列软硬件组件,以及广泛的生态系统支持。本简介重点关注的是由基于英特尔® 媒体传输库和 DPDK 的软件提供支持且内置英特尔® DSA 的第四代英特尔® 至强® 可扩展处理器。

新一代高吞吐量、低时延服务器平台

第四代英特尔® 至强® 可扩展处理器是一个各方面都很平衡的平台, 它经过全面升级并采用了众多内置加速器,可大幅提高性能、减少时延并降低成本。性能得到增强的单核执行资源和每路多达 60 个内核(双路平台多达 240 个线程)的配置,带来高吞吐量和出色的能效表现。

更强大的内存子系统提供多达 8 条传输速率高达 4800 MT/s 的 DDR5 通道,带宽和速度较前代产品提高 1.5 倍2,使每个节点能在 DRAM 中存储更多内容,从而提高视频流密度。每路多达 80 条 PCIe 5.0 通道(上一代平台每路 64 条 PCIe 4.0 通道)的配置, 使 I/O 速度更快、吞吐量更大,有助于为用户推送更多会话。

视频流水线中所需的大量基于软件的内存复制操作通常会占用大量处理器内核资源并产生影响视频质量的时延。通过卸载包括校验、内存比较和检查点在内几乎所有的内存传输操作,英特尔® DSA 使 CPU 内核资源避免产生与数据移入和移出内存、存储和网络子系统相关的开销。英特尔® DSA 优化了跨 CPU、内存和缓存以及各种附加内存、存储和网络设备的流数据传输。这一引擎比软件快得多,因此能够降低时延;同时它能耗更低,因此有助于减少总体拥有成本 (TCO)。

平台的网络 I/O 由英特尔® 以太网 800 系列网络适配器提供。适配器具备多种可优化工作负载的功能,可带来效率和性能的提升,并且支持高达 200 Gbps 的以太网带宽。这些适配器通过优化高带宽视频内容的数据包排序使吞吐量得到提升。

英特尔® 媒体传输库、英特尔® DSA DPDK

为减少与在节点之间传输和接收高带宽视频相关的计算开销, 英特尔® 媒体传输库提供了一条基于英特尔® 架构实现高吞吐量、低时延和高可靠性的简化路径。当从网络适配器接收到视频时, 英特尔® 媒体传输库的相关功能会对 IP 数据包进行处理,并将未压缩媒体的有效负载复制到原始视频帧缓冲区。

英特尔® DSA 可从 CPU 内核高效卸载上述复制操作,实现媒体数据传输和转换加速。它一方面利用数据传输功能实现易失性内存、持久内存和内存映射 I/O 之间的数据传输;另一方面,又通过非透明桥接 (NTB) 设备实现与集群中其他节点上的远程易失性内存及持久内存的数据传输,从而带来这一高性能表现。英特尔® 媒体传输库和英特尔® DSA 共同作用,可提升媒体吞吐量, 同时释放 CPU 内核资源用于处理其他任务,包括执行更高级别的功能。

英特尔® 媒体传输库利用开源 DPDK 和英特尔® 以太网 800 系列网络适配器,通过卸载大部分内核处理、中断处理和数据复制 任务(常在收发网络数据时进行)来加速数据包传输。如图 2 所示, 这套用户空间库和驱动程序绕过了操作系统内核网络堆栈,因此避免了在用户空间和内核空间之间复制数据产生的开销,大大提高了吞吐量3

图 1. 算力、内存和 I/O 的提升成就性能平衡的新一代处理器平台  

图 1. 算力、内存和 I/O 的提升成就性能平衡的新一代处理器平台

图 2. 基于英特尔® 架构加速 IP 传输  

图 2. 基于英特尔® 架构加速 IP 传输

实时视频传输技术要求

此处探讨的软硬件旨在基于英特尔® 媒体传输库,使用第四代英特尔® 至强®可扩展处理器中内置的英特尔® DSA,充分利用视频加速功能。它们满足了降低时延和更有效地使用内核资源所需的技术要求,从而能以更低的运营成本满足实时视频制作、处理和分发的业务需求。

通过减少硬件和带宽占用优化成本

英特尔® 媒体传输库与英特尔® 以太网 800 系列网络适配器相互配合,共同优化多通道 IP 视频 I/O 工作流程,满足 IP 分发的制作需求。对解决方案堆栈的持续优化包括以更少的带宽和 CPU 内核支持更多视频流,以降低支持多通道输入输出的成本。

满足高分辨率和高密度要求

基于软件进行批量数据复制操作时产生的开销一直是实时处理和交付高带宽内容(例如 4K 和 8K 视频)或实时制作过程中存在的瓶颈。解析从网络适配器接收到的视频数据包并将未压缩视频的有效负载复制到原始视频帧缓冲区,常会导致现有解决方案出现不容忽视的效率低下问题。

视频吞吐量性能

团队使用基于高端第四代英特尔® 至强® 铂金处理器的双路服务器验证了英特尔® DSA 在提高视频吞吐量方面的优势。具体配置如表 1 所示。

将有效负载从 RTP(实时传输协议)数据包复制到视频帧缓冲区会消耗大量处理器资源。如表 2 和图 3 所示,在每张网卡一个内核的配置下,使用英特尔® DSA 卸载这些复制操作可以支持传输更多的 1080p 60fps(即分辨率为 1080p,帧率为 60 fps)视频流1

图 3. 使用每张网卡一个内核配置的接收器会话情况  

图 3. 使用每张网卡一个内核配置的接收器会话情况1

与此同时,相关任务卸载到英特尔® DSA 后,可以用更少的内核实现更大的网络带宽(如表 3 和图 4 所示)。团队使用 54 个 1080p 60fps 视频流测试了维持 200 Gbps 网络带宽所需的内核数。在仅使用 CPU 的解决方案中,需要用到 6 个内核,而且,由于该解决方案的可扩展性深受全局系统资源可用性的影响,每个内核的最大会话数从 12 个降到了 9 个。例如,多个内核同时使用 LLC 和 DDR 带宽。而增加了英特尔® DSA 后,只需 2 个内核即可维持相同的工作负载吞吐量,内核用量减少了 66%。

结论

将第四代英特尔® 至强® 可扩展处理器与 DPDK、英特尔® 以太网适配器和英特尔® 媒体传输库结合使用,可以提升视频分发流水线的吞吐量,降低时延和成本。英特尔® 媒体传输库可通过 IP 网络实现基于多种标准的视频传输,并利用英特尔® DSA 这一内置的硬件加速器执行流媒体工作负载中普遍存在的内存复制操作。这些软硬件共同作用,可提升每个节点的网络带宽,并为视频工作负载提供更精简的操作。

图 4. 多个内核上的接收器会话情况  

图 4. 多个内核上的接收器会话情况