至强® CPU 平台为东云睿连智能文档处理产品提供高效能推理加速

概述

东云睿连在“档证通”中使用多种算法模型实现智能 OCR，并借助第四代至强可扩展处理器和 OpenVINO™ 工具套件进行优化。试表明，优化后的方案在 CPU 平台上表现与企业级 GPU 相当。此外，至强® CPU Max 系列和 IPEX-LLM 加速库在大模型推理中提供了显著优势。至强® CPU Max 处理器内置的 HBM 内存提供了高带宽，提升了大模型推理性能。IPEX-LLM 加速库通过低精度数据格式和优化指令集，使大模型推理效率进一步提高。

点击获取解决方案

PDF

概述

承载着各类信息收集、整理和编辑的文档处理工作，一直是社会生活运行中不可或缺的环节。传统人工处理方式不仅耗时耗力且易出现错误和疏漏，已难以满足现代社会的高标准要求。因此，东云睿连正借助人工智能（Artificial Intelligence，AI）的发展，面向各行业需求，为用户打造高质量的智能文档处理（Intelligent Document Processing，IDP）解决方案。

随着相关 AI 技术的不断升级，尤其是大语言模型（Large Language Model，LLM）技术的引入，方案也正面临更多算力需求挑战。东云睿连亟需为用户寻找一种兼顾高性能和高性价比的算力平台，使方案能够快速实现行业落地。借助与英特尔的技术合作，双方以第四代至强® 可扩展处理器、英特尔® 至强® CPU Max系列作为方案的算力基座，并借助内置高带宽内存（High Bandwidth Memory，HBM），以及 OpenVINO™ 工具套件、IPEX-LLM 加速库等软件，以软硬件结合的优势，共同为方案中的智能光学字符识别（Optical Character Recognition，OCR）应用以及大模型推理提供有效加速优化。

验证测试结果表明，优化方案带来的性能增益，能使用户应用在 CPU 平台上获得与企业级 GPU 相当的性能表现，达到了预期的效果。同时，合作的成果也在东云睿连“档证通智能文档处理平台”产品（以下简称“档证通”）上获得了实践验证。

用户引言

“东云睿连始终致力于推动新一代 AI 技术及能力在更多算力平台上获得落地，让智能文档处理解决方案更便捷地为用户提供高价值服务。通过采用英特尔® 至强® CPU Max 系列以及其它软硬件产品，我们的智能产品在推理效能上获得了有效加速，为智能文档处理方案在 CPU 平台上高效地运行提供了极具意义的实践和验证。”

谢冬鸣总经理东云睿连（武汉）计算技术有限公司

背景：智能文档处理亟需兼具高性能和高性价比的算力平台

无论是在商务办公、科研教育，还是在规章合同、档案管理等不同场景，高质量的文档处理系统一直是各领域提升工作效率，推进信息共享的重要途径。随着数字化转型逐渐成为企业加速自身发展、提升核心竞争力的重要手段，融合各类数字化、智能化技术的智能文档处理应用也逐渐在更多行业场景中获得运用。

在许多领域，智能文档处理已成为企业业务效率提升的倍增器。例如在金融领域，智能文档处理能自动完成资料的整理和分析，提高业务处理效率；在医疗领域，其能帮助医生快速调阅病历信息，辅助诊断并生成病历。一些数据显示，2023 年全球智能文档处理市场规模已达 17.5 亿美元左右，并将在未来数年内保持 30% 以上的复合年增长率 (Compound Annual Growth Rate，CAGR) ¹。

档证通

档证通智能文档处理平台（https://dangzhengtong.cn）是一款以 AI 技术为核心，面向企业档案数字化管理的平台软件。其集成了档案管理全流程的诸多功能，包括具有智能 OCR 能力的企业网盘、支持人机会话的档案管理助手、丰富的 AI 工具箱和图文处理工具集。档证通小程序集文件拍照扫描、图像校正增强、模板化批量识别等功能为一体，帮助企业用户快速采集电子文件、生成高清扫描件、提取文件关键信息并转化为结构化档案，轻松应对企业档案管理工作。

图1 东云睿连档证通智能文档处理平台

图2 典型的智能文档处理流程

以东云睿连档证通产品为例，如图 2 所示，在典型的智能文档处理如“智能档案录著“中，流程包括了文档导入、格式解析、检测识别、信息提取、数据验证以及语义检索等流程，为了让这些流程能在前沿信息技术的加持下更加高效，推动新一代 AI 技术及服务能力在智能文档处理领域落地，东云睿连正凭借在计算机视觉 (Computer Vision，CV)、自然语言处理 (Natural Language Processing, NLP)、机器学习 (Machine Learning，ML)、深度学习 (Deep Learning，DL)，大语言模型 (Large Language Model , LLM) 以及 OCR 等关键技术领域的深厚积累，为使用者提供丰富实用的功能和一体化解决方案。

如图 3 所示，这些功能在构建时，面向不同场景的需求进行了充分地适配和调优。尤其是在多模态信息处理方面，档证通产品充分运用 CV、NLP 以及 OCR 等领域相关的AI模型，让用户文档中的图像、表格、印章、签名等多模态信息获得高质量地处理。同时，东云睿连也积极将大模型技术引入产品方案中，借助其出色的泛化能力，让系统通过直接推理工作（或仅需进行大模型微调）就可完成识别、检索或文档输出等不同环节上的智能化处理。

图3 档证通产品丰富的使用场景

方案的高效运行，尤其是面向 AI 推理任务时离不开高质量硬件基础设施提供的强劲算力支持。虽然目前有很多选择，包括各类 GPU、TPU、NPU 等 AI 加速器，但用户在部署以 AI 推理任务为主的方案，且需要较低的 TCO时，仍会遇到重重挑战：

一方面，汹涌的 AI 浪潮不仅推高了各类加速器产品，尤其是 GPU 产品的市场价格，甚至还出现了“一卡难求”的状态，大幅抬升了用户的构建成本；
另一方面，在东云睿连协助用户将智能文档处理方案融入业务实践的过程中，更具性价比的选择是在既有硬件基础设施之上，通过混合计算负载模式来兼顾方案中的推理负载及其它通用计算任务，而非从零开始构建全新的系统。

为此，东云睿连与英特尔一起，以第四代至强® 可扩展处理器、英特尔® 至强® CPU Max 系列为算力基座，并借助至强® CPU Max 系列集成的 HBM 内存，以及 OpenVINO™ 工具套件、IPEX-LLM 加速库等软件，在智能OCR应用以及大模型的部署优化上展开了一系列深度技术合作。合作成果不仅在随后的性能测评中获得了验证，也在档证通产品中进行了实践并取得了令人满意的效果。

解决方案：英特尔软硬件产品组合为智能 OCR 应用及大模型提供推理加速

■ 第四代至强® 可扩展处理器与 OpenVINO™ 工具套件为智能 OCR 应用提供加速

作为智能文档处理中的关键环节，OCR 技术是将纸质文档中的文字转换成为图像文件，并进一步转换成文本格式供后续环节使用。在东云睿连档证通产品中，智能 OCR 应用方案中包含了文本行检测、字符识别、文本档方向以及参考字段定位等独立算法模型，分别使用 DBNet算法实现文本行语义分割识别、使用CRNN算法实现字符识别、使用 ResNeXt50 算法实现字符方向识别，以及使用文本识别模型卷积层部分网络权值来确定参考字段在当前图像中的坐标位置信息。

图4 档证通产品基于模板识别的端到端智能 OCR 应用方案

用户在进行文档处理时，既可独立地使用上述算法模型进行文本识别，也可基于模板识别方式构建端到端的智能OCR 应用方案。在模板识别方式下，通过将独立模型模板化后，用户的应用可轻松根据模板参数信息，经模板化识别计算后识别出目标图像中（例如发票）目标区域内文本信息，并以结构化数据输出识别结果（例如发票号码、商品清单以及金额等）。

为保证智能 OCR 应用方案的高效运行，东云睿连档证通产品以第四代至强® 可扩展处理器作为方案的核心算力引擎，并引入 OpenVINO™ 工具套件为方案提供推理优化。这一代处理器不仅比以往产品有更多的核心，单内核性能比上一代产品更高，同时还在内存和输入/输出子系统方面做了相应改进，通过加入对 DDR5 内存、PCIe 5.0 等技术的支持，为方案提供更为强劲的计算和 I/O 性能表现。

与此同时，处理器内置的英特尔® AMX（Intel® Advanced Matrix Extensions，英特尔® 高级矩阵扩展）技术为推理性能的提升提供了巨大动能。采用二维矩阵计算模式，并支持 INT8 和 BF16 两种低精度数据类型的英特尔® AMX 不仅能更充分地利用计算资源，显著提高每个时钟周期的指令数，也通过提升高速缓存的利用率来避免潜在的带宽瓶颈。其配合低精度数据格式能使运算效率获得大幅提升，在保证精度影响最小的前提下加速智能 OCR 的推理过程。

此外，东云睿连使用了 OpenVINO™ 工具套件来为推理任务加速。作为英特尔推出的 AI 模型优化和加速工具套件，其能对训练后的模型进行转换和优化，包括离线生成 IR 文件、将模型量化为 BF16 以及算子优化等。 OpenVINO™ 工具套件在运行时会自动检测计算平台可支持的加速指令，如在智能 OCR 的推理任务中，其可以基于第四代至强® 可扩展处理器自动调用 BF16 加速指令。

如图 5 所示，借助加速方案，档证通产品通过智能 OCR 算法为用户提供了面向不同用途的文档识别功能，包括文件识别、身份证识别、自由识别等，以及版式还原、表格识别和图文比对等实用性很强的功能。

图5 档证通产品基于智能 OCR 算法的识别功能

■ 英特尔® 至强® CPU Max 系列与 IPEX-LLM 为大模型推理提供加速

在不同的文档处理场景中，多模态的文档类型（文本、图像、表格、视频等）以及不同的处理需求，促使智能文档处理方案在设计时，需要融入 CV、NLP 等不同领域的AI技术，这无疑将提高系统的复杂性以及用户的构建维护成本。大模型技术的到来，正为上述问题带来了有力解方。

得益于强劲算力与海量数据的加持，拥有巨大参数规模（十亿乃至更多）的大模型不仅具备更强的学习性能和更优的模型拟合效果，其高效的迁移学习能力也能帮助智能文档处理方案实现在通用模型上完成不同类型的处理任务。

东云睿连在智能文档处理方案中引入了 Baichuan-13B、ChatGLM2-6B、Qwen-7B 以及 Chinese-LlaMA2-13B 等多种流行的自然语言大模型，并基于此为用户提供了多种能力输出，例如智能问答系统、自动化生成文档报告等。

来自英特尔® 至强® CPU Max 系列的强劲算力，为方案中的大模型推理任务提供了适合的计算资源。一方面，处理器所采用的全新微架构、更多的内核（多达 56 个性能核）、先进的 I/O 和内存子系统（支持 DDR5 内存）以及多种内置计算加速技术（包括英特尔® AMX、英特尔® DSA 等），为推理任务提供了强有力的性能输出；另一方面，这一处理器中内置的HBM内存也为推理性能的提升带来了巨大助力。

图6 英特尔® 至强® CPU Max 系列提供的技术优势

在大模型的推理过程中，密集的数据计算会消耗大量内存带宽，因此内存带宽越大，推理性能表现也将越优异。英特尔® 至强® CPU Max 系列处理器内置了 4 组 16GB，总容量 64GB 的 HBM2e 内存，单颗处理器可提供高达约 1TB/s 的内存带宽，远高于普通 DDR 内存的高带宽特性使得访存通量大幅提升，从而有力地提升大模型的推理性能。

同时，东云睿连也与英特尔一起，引入开源大语言模型加速库 IPEX-LLM 来进一步实现大模型推理的优化加速。IPEX-LLM 不仅提供了对各种低精度数据格式的支持和优化，便于用户根据实际产品需求选择合适的模型和量化参数，并可基于不同处理器内置指令集（如英特尔® AVX-512_VNNI、英特尔® AMX 等）及其它软件实施推理加速，使大模型在基于英特尔® 架构的平台上实现更高的推理效能。在本次合作中，东云睿连就在 IPEX-LLM 的框架下，实现了大模型在 INT4 低精度数据格式上的推理加速。

如图 7 所示，基于大模型能力以及软硬件加速，档证通为用户提供智能助手来助力文档的快速解析，对文档中的相关信息进行提炼、组合分析，提升阅读体验。而在企业层面，档证通智能助手可基于企业上传的产品手册、案例介绍等多项产品资料，支撑企业客服问答、企业培训、企业知识库查询等业务，为企业业务发展提供强劲支撑。

图7 基于大模型的档证通智能助手

效果：新方案在 CPU 平台上获得媲美 GPU 的性能表现

为验证基于英特尔软硬件基础设施构建的智能文档处理解决方案的性能表现，东云睿连与英特尔一起，对一系列关键性能指标进行了测试验证。

■ 第四代至强® 可扩展处理器与 OpenVINO™ 工具套件组合的性能验证

测试首先验证了第四代至强® 可扩展处理器与 OpenVINO™ 工具套件在智能 OCR 应用中的性能表现。验证结果如下，如图 8 所示²，在基于模板识别的端到端智能 OCR 应用中，所测试的英特尔® 至强® 铂金 8480+ 处理器用时相比早期测试的英特尔® 至强® 金牌 6248 处理器，应用延迟降低了 70%。

图8 不同处理器在智能 OCR 应用中的性能对比（基于模板识别）

如图 9 所示²，在面向字段定位模型的智能 OCR 应用中，所测试的英特尔® 至强® 铂金 8480+ 处理器每秒可处理图像数量相比早期测试的英特尔® 至强® 金牌 6248 处理器提升达 4.5 倍。

Performance Comparison of Different Processors for Intelligent OCR Applications Infographic

图 9 不同处理器在智能 OCR 应用中的性能对比（面向字段定位模型）

如图 10 所示³，在基于模板识别的端到端智能 OCR 应用中，OpenVINO™ 工具套件与英特尔® 至强® 铂金 8480+ 处理器配合后，每秒可处理图像数量相比原生训练框架提升达 3.1 倍。

Performance Comparison of Different Software Optimizations in Smart OCR Applications Infographic

图10 不同软件优化在智能 OCR 应用中的性能对比（基于模板识别）

如图 11 所示³，在面向字段定位模型的智能 OCR 应用中，OpenVINO™ 工具套件与英特尔® 至强® 铂金 8480+ 处理器配合后，每秒可处理图像数量相比原生训练框架提升达 27.4 倍。

Performance Comparison of Different Software Interfaces and Different Precision Data Formats for Large Model Inference Infographic

图11 不同软件优化在智能 OCR 应用中的性能对比（面向字段定位模型）

从上述不同测试结果可以印证，OpenVINO™ 工具套件与第四代至强® 可扩展处理器相配合，能显著提升模型推理性能，为东云睿连的智能 OCR 应用提供良好的计算能力支撑。

■ 英特尔® 至强® CPU Max 系列与 IPEX-LLM 加速库组合的性能验证
东云睿连还验证了英特尔® 至强® CPU Max 系列处理器与 IPEX-LLM 在大模型推理上的性能表现。验证结果如下，如图 12 所示⁴，在量化参数 =INT4，上下文窗口 =200 的场景下，英特尔® 至强® CPU Max 9462 处理器在不同大模型上推理的生成速度相比早期测试的英特尔® 至强® 金牌 6248 处理器分别提升达 1.95 倍至 3.24 倍不等。

图12 不同处理器在大模型推理中的性能对比（量化参数 =INT4，上下文窗口 =200）

如图 13 所示³，在使用 Chinese-LlaMA2-13B 模型，上下文窗口 =200 的场景下，英特尔® 至强® CPU Max 9462 处理器在使用 IPEX-LLM 加速库，数据格式为 INT4 的场景中，大模型上推理的生成速度相比 FP32 数据格式下的原生 Transformers 提升达 5.28 倍。

Algorithmic Recognition Function of Intelligent OCR Infographic

图13 不同软件接口和不同精度数据格式在大模型推理中的性能对比
（量化参数 =INT4，使用 Chinese-LlaMA2-13B 模型）

同时，双方使用 Chinese-LlaMA2-13B 模型在中文评测数据集 C-Eval 下，分别使用 IPEX-LLM Native INT4 和原生 Transformers INT4 进行了准确性对比测试（使用 zero-shot 方式），准确率结果分别为 39.2% 和 39.6%，基本相当⁴。

从上述各项测试结果可以获知，英特尔® 至强® CPU Max 系列与 IPEX-LLM 加速库的配合，能使东云睿连智能文档处理解决方案在大模型推理上获得与企业级GPU相当的性能表现。同时，经 IPEX-LLM 加速后的方案在准确率上也与原生 Transformers 相仿。因此，基于英特尔® 至强® CPU Max 系列与 IPEX-LLM 加速库的解决方案能满足东云睿连当前大部分自然语言大模型相关产品的部署需求。

未来展望

随着更多AI 技术在智能文档处理领域落地，帮助用户在既有信息化平台上构建高效能、易扩展且可广泛运用的算力平台已成为当务之急。东云睿连也正与英特尔一起，通过引入一系列先进英特尔软硬件产品，探索在 CPU 平台上为用户打造更具性价比的智能化解决方案。面向未来，双方还计划将智能文档处理领域的成果向金融、医疗、电信以及智能制造等更多行业扩散，让智能文档处理的价值在更多领域得到发挥。

东云睿连

东云睿连（武汉）计算技术有限公司是一家旨在打造人工智能关键系统、核心算法及杀手锏应用的高科技公司，是北京东方国信科技股份有限公司（股票代码 300166）的控股子公司。东云睿连的产品涉及人工智能、大数据和云计算领域的系统平台软件，以及面向多种行业的应用、算法与服务。公司的使命是通过自主研发尖端科技，为客户构建差异化竞争力，推动新一代人工智能技术及服务的落地。

选择您的语言

使用 Intel.com 搜索

快速链接

最近搜索

高级搜索

仅搜索

软硬结合下的另辟佳径，至强® CPU 平台为东云睿连智能文档处理产品提供高效能推理加速

概述

概述