概述
老电影修复,不仅能让珍贵的电影资料得以保存,也能让人们更好地了解和欣赏过往的文化和艺术表达形式,这对于传承历史记忆、保护文化遗产以及弘扬民族精神有着重要意义。技术的进步正在推动老电影修复水平不断提升,近年来高速发展的 AI 技术更可助力消除人工修复方式存在的效率低、成本高、无法实现大规模修复工作且不能提升影片清晰度的弊端。
以 “激发创造 丰富生活” 为使命的字节跳动,致力于通过 AI 技术推动老电影的修复工作。在完成百部经典动画 4K 修复项目后,其旗下抖音、火山引擎也与中国电影资料馆一起发起了 “经典香港电影修复计划” ,计划修复 100 部香港经典影片。为提升观影体验,使观众能更好地欣赏电影的艺术价值,领略导演的创意和技巧,修复团队不仅面向去噪声、去模糊以及超分辨率等环节制定了卓有成效的算法方案,也与英特尔合作,引入内置英特尔® AMX(Intel® Advanced Matrix Extensions,英特尔® 高级矩阵扩展)加速引擎的第四代英特尔® 至强® 可扩展处理器以及OpenVINO™ 工具套件等软硬件产品,为修复工作提供了具有强劲 AI 加速能力的推理算力平台,为修复工作的按时按质完成提供了保障。
用户引言
利用 AI 技术推进老电影修复项目,一方面有助于推动历史与文化传承,让共同记忆被更好地保存和呈现;另一方面也能提升火山引擎和英特尔在 AI 领域的技术影响力。基于第四代英特尔® 至强® 可扩展处理器、英特尔® AMX 加速引擎及 OpenVINO™ 工具套件等软硬件产品构建的高效能推理算力平台,为修复项目的顺利完成提供了有力保障。”
背景:老电影修复亟需引入 AI 来提升效能
自诞生至今的百余年间,电影始终如实记录着社会的点点滴滴。老电影不仅是令人愉悦的视听享受,也是宝贵的人类文化遗产。为此,联合国已将每年的 10 月 27 日定为 “世界音像遗产日”。但很多老电影由于制作年代久远,画质已经模糊、昏暗和不清晰,无法让观众真正欣赏到电影的艺术精髓和美学价值,因此老电影修复工作也正受到越来越多的关注。
传统的老电影修复通常由人工完成,为达到 “修旧如旧” 的艺术修复标准,工艺流程往往繁杂而冗长。如图一所示,其一般分为四个环节,物理修复、数字修复、艺术修复和合成润色。
但人工修复方式面临着效率低、成本高的弊端,无法实现大规模修复工作。一部电影往往多达十几万帧,经验丰富的修复师即便夜以继日的工作,修复单部影片的时间也需要在一个月以上。同时人工修复只能复原老电影原始的拍摄质量,无法让影片的清晰度、流畅度实现进一步提升。因此,实现规模化修复并提升影片质量正成为老电影修复面临的重要挑战。
AI 技术的发展为这一挑战带来新的解决方案。借助深度学习 (Deep Learning , DL) 等 AI 技术,可以对老电影进行智能分析,识别出画面中的模糊、噪点、色彩失真等问题并进行画质修复和画质增强。常见的修复算法包括:
- 去噪声 (Denoise):消除电影画面里的各种噪声,如热噪声、块噪声、蚊子噪声等,让画面干净自然;
- 去模糊 (Deblur):对电影画面细节进行恢复重建,使画面更为清晰;
- 超分辨率 (Super-Resolution):解决老电影分辨率过低的问题,将低清晰度增强至高清晰度,提供更好的观影体验。
同时,基于 AI 的老电影修复还能实现视频倍帧、去隔行、去色偏以及去划痕等能力,使影片的清晰度、流畅度获得巨大提升。
凭借在 AI 与音视频领域雄厚的技术实力,字节跳动也正积极投身基于 AI 的老电影修复工作。2022 年,其旗下西瓜视频与火山引擎已携手完成了百部经典动画 4K 修复项目,并在业界内外获得了良好反响。而这一修复技术的积累,也推动老电影修复工作继续前行。2023 年,字节跳动旗下抖音、火山引擎与中国电影资料馆共同发起了 ”经典香港电影修复计划”,计划修复 100 部香港经典影片,让大众看清香港电影最初的、最清晰的样子,也让更多人重新发现香港电影之美。
为助力修复工作的高效完成,修复团队不仅构建了卓有成效的修复技术方案,也与英特尔展开合作,引入第四代至强® 可扩展处理器来构建推理任务的算力平台,以处理器内置的英特尔® AMX,联合 OpenVINO™ 工具套件,为推理任务提供了有效的 AI 加速能力。
解决方案:精准算法方案与英特尔软硬件协同打造高水平修复方案
与普通视频修复工作相比,老电影在修复时会更注重保留影片原有的美学特色和光影效果。因此在香港经典影片修复项目中,修复团队面临的首要挑战是如何让基于 AI 的修复工作在 “修旧如旧” 的前提下实现更清晰流畅的效果;其次,面对修复完成 100 部香港经典影片的目标,修复团队无疑面临着巨大的时间和计算压力。由于 AI 推理任务在总修复工作中占据巨大比例,因此修复团队亟需构建更高效的 AI 推理算力平台来保证修复任务的如期完成。
- 精准算法技术路线,应对老电影 “修旧如旧” 需求
面对第一项挑战,修复团队提出了具有针对性的修复流程和技术路线。首先,团队对老电影的画质问题进行分析并构建相应的基准 (Benchmark) 数据集。这是一项艰巨的任务,在完成基本的物理修复后,需要先在火山引擎多媒体实验室进行数字修复,然后基于中国电影资料馆对艺术风格的调整和把控,开展相应艺术修复,且修复的结果将作为训练数据集用于后续的监督训练。
由于不同的老电影有着不同类型和程度的画质问题,很难用统一的算法方案进行修复。团队在对商业工具、竞品以及学术界相关研究进展进行综合分析调研后,梳理确定了算法路线图,针对不同类型的问题提出不同的修复算法方案,对症下药,实现理想的修复效果。
例如在去噪声算法方案中,如图二所示,团队在基于MEMC(Motion Estimate and Motion Compensation,运动预估与补偿)的传统多帧时域降噪算法基础上,引入多种优化算法,例如基于slide window (滑动窗口) 的NN (Nearest Neighbour,最近邻法)方案用于解决高噪的快速运动场景下的噪声残留问题,以及结合更真实的 Film Grain (胶片颗粒)生成算法的 Recurrent (循环)网络结构,用于优化在真实老电影数据上的纹理细节保留效果。同时方案还加入了更精确的运动补偿以及更高效的帧间信息利用技术。同样,在去模糊以及超分辨率算法方案中,团队也引入了大量用于优化真实老电影数据泛化性、优化结果的纹理细节表现以及优化人像真实质感的算法和技术。
与此同时,老电影画质问题多样、退化链路复杂且未知,以及数据集难以定制等客观原因,带来了先验信息不足的问题。而模型从数据集中蒸馏出来的先验信息,是任务模型能否获得高性能的关键。因此传统 AI 模型有着泛化能力相对较差、生成能力不足以及增强效果天花板较低的短板。为解决这一短板,团队在去模糊以及超分辨率算法方案中还引入了基于Stable Diffusion的视觉大模型,借助Stable Diffusion强大的生成能力和丰富的先验知识,基于Latent Diffusion Models(潜在扩散模型)的方案能生成更加逼真的纹理细节,在真实老电影数据中获得更好的泛化能力。
- 强劲英特尔软硬件产品,加速高效能推理流程
在借助上述 AI 技术方案以及训练数据集完成监督训练后,高效完成海量 AI 推理任务,尤其是视觉大模型引入后带来的推理负载增幅,就成为修复工作中的巨大挑战。为此,修复团队通过与英特尔的合作,引入第四代至强® 可扩展处理器以及OpenVINO™ 工具套件等软硬件来构建高效能的 AI 推理平台,加速老电影修复项目。
首先修复团队选择第四代至强® 可扩展处理器作为 AI 推理任务的核心算力引擎。第四代至强® 可扩展处理器不仅单核性能比上一代产品更高,每路处理器也配备了多达 60 个内核。同时处理器提供了对 DDR5 内存的支持,每路处理器支持 8 条内存通道,速率高达 4,800 MT/s1 ,这为老电影修复中的 AI 推理过程提供了关键的性能助力。
而第四代至强® 可扩展处理器内置的英特尔® AMX 加速引擎,同样也为推理任务提供了显著的 AI 加速。作为矩阵运算相关的加速器,英特尔® AMX 对 INT8、BF16 等低精度数据类型有着良好的支持(通过 AMX_INT8、AMX_BF16 等不同指令集执行操作),能大幅增加 AI 应用的每时钟指令数 (IPC),从而加速基于 CPU 平台的深度学习推理和训练任务。
在实战中,由于英特尔® AMX 对 BF16 数据类型的良好支持,其在面向 BF16 模型时,无需做额外的低精度模型量化就可直接加载方案中的模型进行推理。BF16 在推理结果精度上有着不逊于 FP32 的表现,而在精度相似的情况下,BF16下的矩阵运算与FP32相比只需要处理一半尺寸的数据,这不仅带来更大的吞吐能力,加速推理过程,内存需求也随之大幅降低。
在老电影修复过程中,由于修复的视频片段往往较大,需要将视频分段后从硬盘逐一读取到内存中处理。受硬盘读写性能的影响,这一过程往往易于形成性能瓶颈。引入英特尔® AMX所带来的内存需求降低,再结合第四代至强® 可扩展处理器对超大内存容量的支持,使得方案能在执行推理任务时,一次性将整部电影数据完整加载到内存中,避免硬盘读写过程,进一步提升处理效率。
此外,修复团队也通过 OpenVINO™ 工具套件来为推理任务加速。作为英特尔推出的AI模型优化和加速工具套件,其可基于英特尔各类 CPU、GPU 及 NPU 硬件架构进行模型部署,使得平台的计算资源利用最大化。OpenVINO™ 工具套件能对训练后的模型进行转换和优化,包括离线生成 IR 文件、将模型量化为 BF16 以及算子优化等。OpenVINO™ 工具套件在运行时会自动检测计算平台可支持的加速指令,如在本次修复工作的推理任务中,其可以基于第四代至强® 可扩展处理器自动调用 BF16 加速指令。
效果:英特尔软硬件让老电影修复方案获得显著加速
为验证英特尔软硬件产品与技术为老电影修复项目带来的性能助力,修复团队与英特尔一起开展了专门的验证测试。测试基于第四代至强® 可扩展处理器(英特尔® 至强® 铂金 8468 处理器)开展,依次执行修复项目中面向去噪声 (Denoise)、去模糊 (Deblur) 以及超分辨率 (Super-Resolution) 环节的 AI 推理任务,这一测试方法与修复项目的实际操作完全保证一致。
测试中,老电影的视频数据尺寸为 4352*4352(去噪声环节)与 2600*4120(去模糊和超分辨率环节),在英特尔® 至强® 铂金 8468 处理器上对比测试 BF16 和 FP32 两种数据类型(INFERENCE_PRECISION_HINT 分别设为 ov.Type.bf16 和 ov.Type.f32)。同时,测试也使用第三代至强® 可扩展处理器(英特尔® 至强® 铂金 8336C 处理器)作为对照组,验证新平台带来的性能提升。
在各个测试环节都统一选取 8 个处理器逻辑内核时,测试结果如图三所示:
- 在去噪声环节中,基于 BF16 的第四代至强® 可扩展处理器方案相比基于 FP32 的同平台提升达 4.31 倍,相比基于 FP32 的第三代至强® 可扩展平台提升达 10.95 倍;
- 在去模糊环节中,基于 BF16 的第四代至强® 可扩展处理器方案相比基于 FP32 的同平台提升达 3.09 倍,相比基于 FP32 的第三代至强® 可扩展平台提升达7.5倍;
- 在超分辨率环节中,基于 BF16 的第四代至强® 可扩展处理器方案相比基于 FP32 的同平台提升达 4.16 倍,相比基于 FP32 的第三代至强® 可扩展平台提升达 10.14 倍。
图三 使用 8 个处理器逻辑内核时新方案推理性能对比(数据归一化)2
在各个测试环节都使用全部处理器性能时,测试结果如图四所示:
- 在去噪声环节中,基于 BF16 的第四代至强® 可扩展处理器方案相比基于 FP32 的同平台提升达 3.09 倍,相比基于 FP32 的第三代至强® 可扩展处理器提升达 5.77 倍;
- 在去模糊环节中,基于 BF16 的第四代至强® 可扩展处理器方案相比基于 FP32 的同平台提升达 3.46 倍,相比基于 FP32 的第三代至强® 可扩展处理器提升达 7.14 倍;
- 在超分辨率环节中,基于 BF16 的第四代至强® 可扩展处理器方案相比基于 FP32 的同平台提升达 3.34 倍,相比基于 FP32 的第三代至强® 可扩展处理器提升达 6.29 倍。
图四 使用全部处理器性能时新方案推理性能对比(数据归一化)3
同时,第四代至强® 可扩展处理器的多核性能也在这一测试中得到体现,与只使用 8 个处理器逻辑内核时相比,使用全部处理器性能时能带来 1.68 至 3.19 倍不等的性能提升。
由此可见,得益于第四代至强® 可扩展处理器、英特尔® AMX 加速引擎及OpenVINO™ 工具套件等英特尔软硬件产品提供的强劲算力以及对 AI 推理的有效加速,老电影修复方案进程获得了显著加速。
未来展望
随着老电影所承载的文化、艺术和学术价值被更多地认可,其修复工作也正获得更多关注。专业修复团队的悉心工作,以及 AI 等专业技术手段的助力,让那些曾经暗淡无光的画面得以重焕新生,使观众能重新感受到老电影所蕴含的情感和内涵。这一过程中,字节跳动与英特尔所开展的深入合作表明,经过精心调优的技术方案可在 “修旧如旧” 的前提下实现更清晰流畅的效果,而第四代至强® 可扩展处理器及 OpenVINO™ 工具套件等软硬件产品的加入,也能帮助修复项目执行高效能的推理任务。
字节跳动与英特尔携手开展的老电影修复工作还在继续前行。面向未来,双方一方面计划在第五代英特尔® 至强® 可扩展平台上部署AI推理任务,并将修复模型的数据类型扩展至 INT8 以获得更佳的执行效能;另一方面,双方也计划对老电影修复的整个流程,包括预处理部分和后处理部分等开展进一步综合优化,以获得更优的修复效果。