在银行、金融、房地产等行业,每天都有成千上万的交易在发生。这些交易有一个共同点,即它们都会产生大量以自然语言填写的文件,并且需要存档,供客户管理、财务决策和管理、监管合规以及一般运营之用。尽管企业正在转向采用数字文档,但由于许多文件仍然是手填的,因此产生了各种不同语言的海量结构化和非结构化数据源。这些数据可能包含对企业发展以及合规管理人员非常重要的信息。通常情况下,企业要雇佣大量翻译人员,从中寻找并提取关键内容。整个提取过程缓慢、昂贵、容易出错,而且无法实现规模化操作。
人工智能驱动的自然语言处理 (NLP) 算法能够实现不同语言数据的自动快速提取。利用这类技术进行文件分类并从中提取相关数据无需人工干预,或者只需要极少的人工监督即可实现。
NLP 是银行业务运营中至关重要的一部分。在银行所有由人工智能提供支持的活动中, 28.1% 用到了 NLP1。而在银行的 NLP 应用中,供应商所提供的产品里 50% 都用到了分类和信息检索技术1。其他应用则针对语音识别、情感分析和意图解析。
Minsait(Indra 旗下公司)创建了 Onesait Language 软件即服务 (SaaS) 平台,用于加速文件处理。Onesait Language 利用基于人工智能的 NLP 实现自然语言所写的海量文件的自动化处理,在降低成本的同时也加快了从文件数据中获取洞察的速度。
Onesait Language 自然语言处理
Onesait Language 在解决方案中采用 NLP 和机器学习 (ML) 自动进行文件分类并从中提取相关信息。该应用能够对银行和房地产领域中诸如契约、票据、合同等超过 25 种不同类别的文件进行分类,并通过自动提取实体将非结构化的文件转换成结构化数据。
Onesait 采用深度神经网络 (DNN) 训练管道,别出心裁地针对未曾见过的新文件类型开发新算法。该解决方案实现人工全程参与,对文件做注释,对系统进行监督管理。这样一来,算法就可以持续接受训练并得到提升,从而使服务得到改善。
英特尔® 架构助力 Microsoft Azure 云平台上的 SaaS
金融机构可以从运用 NLP 中受益,但运行人工智能软件所需的计算资源不容小觑。NLP 过程十分复杂,针对某个特定行业定制训练所需的专业知识也并非所有企业都能够拥有。对于中小企业而言,这些都会限制其内部引入 NLP 技术的可能性。就算是大企业,也可能需要很大的投入。
Onesait Language 在第二代英特尔® 至强® 可扩展处理器支持下, 以 SaaS 模型形式通过 Microsoft Azure 云服务提供。NLP 服务在后端提供。用户可以借助 REST API 通过 Onesait Language 的 Web 前端或者任何其他第三方客户端使用该服务。用户通过直观的图形用户界面将文件加载到 Onesait Language 上。NLP 服务自动将文件分类,并从中提取相关信息。用户可以采用任何文件格式导出结果,然后将信息发送到其他系统。
已针对第二代英特尔® 至强® 可扩展处理器进行优化
Minsait 开发人员利用 Tensorflow 框架创建了 NLP 模型。Tensorflow 使用的浮点运算会占用大量 CPU 和内存资源。面向英特尔® 架构优化的 Tensorflow 提供了一套工具,方便用户在第二代英特尔® 至强® 可扩展处理器上利用英特尔® 架构进行机器学习训练。这些 优化中包括面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN),能够帮助加速机器学习训练的浮点运算。
由于 Minsait 是英特尔® AI Builders 计划成员,因此可以与英特尔的工程师合作,借助英特尔的开发环境来训练和优化他们的算法。如图 1 所示,与未经优化的基线相比,在英特尔® 至强® 金牌 6252 处理器上使用面向英特尔® 架构优化的 TensorFlow,训练速度 提升了 1.17 倍2。这一提升非常重要,因为训练速度加快可以降低客户在云资源方面的成本。
图 1. 在第二代英特尔® 至强® 金牌 6252 处理器上使用面向英特尔® 架构优化的 TensorFlow 训练 Onesait Language,速度提升高达 17.2%2。
结论
Onesait Language 通过自动进行文件分类并从中提取数据, 帮助银行、房地产服务商等更快速地处理各种海量数据资产。 借助面向英特尔® 架构优化的 TensorFLow 在第二代英特尔® 至强® 可扩展处理器上对 Onesait Language 机器学习训练进行优化, Minsait 降低了训练分类器和提取器所需的时间。这样做能够帮助客户降低使用云资源的成本。
英特尔的人工智能技术和优化方案已降低了训练和部署新模型的投入。在像银行业这样瞬息万变的环境中,能够及时重新训练模型对于新文件分类以及持续为自动化数据检索提供动力而言至关重要。
有关 Minsait 的更多信息,请访问 minsait.com/en
有关 Onesait Language 的更多信息,请访问 onesait.com/products/language/
有关英特尔® AI Builders 计划的更多信息,请访问 builders.intel.com/ai