执行概要
SURF 是一家由 109 所荷兰教育和研究机构组成的合作协会,涵盖大学、医疗中心、职业学校以及荷兰其他重要的教育和知识组织。协会各成员携手并进,共同致力于打造更加灵活和完善的教育与研究环境。
SURFsara 负责协助 SURF 内部各领域的专家,且不仅仅局限于高性能计算 (HPC) 或人工智能 (AI) 领域的专家。SURFsara 汇集了高性能计算、网络、数据服务、可视化、电子科学支持和云服务等方面的大量专业知识和服务技能。
SURFsara 始终致力于通过基于人工智能的计算方法,助力高性能计算社区实现转型。
挑战
一项新的研究表明,GPU 可用的本地内存非常有限,从而导致了设计受限,一些人工智能算法也因此面临极大阻碍。对于原先被认为过于复杂以至于无法通过数据密集型方法来解决的新问题,SURFsara 研究人员利用基于英特尔® CPU 系统的内存容量,将人工智能算法应用于这类新问题,并取得了显著的算法新成果。
在不受 GPU 系统本地内存限制的情况下,我们可以提高准确度和性能。CPU 系统能为深度学习的实际应用提供更加多样化的解决方案,在解决包括医学等棘手问题的人工智能前沿研究中有着重要的应用。” –– SURFsara 高性能机器学习小组负责人 Valeriu Codreanu
典型的胸部 X 射线图像,供分析。X 射线胸部成像设备价格便宜且运用广泛,但是相比 CAT 扫描仪这种运用不那么广泛且价格高昂的设备而言,前者往往在图像解读方面的难度要更大。
即使只有 8 个节点,最初的(稀疏)转化方法仍会出现扩展快速下降的问题,任何高层级的横向扩展因此注定会失败,而且在更高层级上运行不仅成本高昂,还将面临计算密集的压力。而新方法(密集)可以很好地进行扩展,在 256 多个节点上都有出色的扩展表现。
解决方案
经研究人员证实,在没有 GPU 本地内存限制的情况下,重新思考深度学习和其他人工智能算法可以取得显著有效的成果。该针对深度学习和人工智能算法的重新思考利用了英特尔® 处理器所提供的强大功能,可将有关胸部 X 射线分析的准确度和性能提升到一个新高度,并大大改善机器翻译功能。研究人员还强调,他们发现 “对 CPU 进行编程比 GPU 要简单得多”。
快速准确地训练人工智能放射科医生
胸部 X 射线检查是目前使用非常频繁且颇具成本效益的医学影像检查之一——远比胸部 CT 影像检查便宜,并且应用更广。但是, 相较于昂贵、资源较少但结果更为详细的胸部 CT 成像诊断,胸部 X 射线诊断往往更具挑战性,难度也更大,其可靠性还更低。
尽早准确诊断出肺气肿和肺炎可以挽救生命。据估计,肺气肿能够影响 1,600 万美国人1,并危及生命,因此尽早发现对于遏制病情的发展至关重要。据世界卫生组织 (WHO) 称,全世界有 6,400 万人患有肺气肿或某种肺部疾病2,并且 WHO 预测到 2030 年,这将成为全球第三大致死原因。WHO 估计肺炎是全世界儿童的头号死亡原因3。在 2017 年,全球就有 808,694 名儿童死于肺炎。 美国胸科协会 (the American Thoracic Society) 估计每年有 100 万成年人因肺炎前往医院就诊4,而美国疾病控制与预防中心 (CDC) 报告称,有 49,157 人死于肺炎5。
SURFsara 高性能计算和人工智能顾问 Damian Podareanu 表示, “人们可能普遍认为这个世界是数字化的,一切都可以立即通过计算机进行分析,然而事实却并非如此。各个机构正朝着这个目标迈进,但是我们今天还无法做到这一步。借助 CPU,我们可以获取掌握的数据,并利用这些数据做更多的事情。此外,我们也可以看到采用 CPU 所能带来众多未来的可能性,因为在未来的几年中会有越来越多的可用高质量数据集。”
与以往基于 GPU 的方法相比,面向胸部 X 射线分析的基于 CPU 的深度学习技术实现了显著成果,这部分得益于避免将 1024x1024 图像缩减像素采样为 224x224 图像(而使用基于 GPU 的系统时必须如此)。对输入进行缩减像素采样会导致医学数据中大量可视信息的损失。
关于研究人员在胸部 X 射线方面的研究以及在 CPU 上进行横向扩展的研究成果(包括使用折叠式集成),可参阅有关技术的文章。关于他们的最新研究概要,可参阅 ISC19 海报,其中包括他们在分类准确度方面取得的全新成果。
较以往工作精度更高
研究人员发现,利用 CPU 来避免基于 GPU 系统的内存限制可实现远高于之前技术的准确度。事实证明,对于使用英特尔® 至强® 可扩展平台进行胸部 X 射线分析而言,横向扩展和大批量训练确实是加速神经网络训练的有效方法。研究人员在实验中提高了分类准确度,而获取有效神经网络模型所要求的数据集总传递次数(周期)却并未显著增加。ResNet-50 的升级版本称为 ResNet-59, 使用完整的 1024x1024 图像来进一步提高分类准确度。在训练大型 AmoebaNet 模型(1.68 亿个参数)时,研究人员试图在横向扩展研究中进一步提高分类能力(平均 AUROC 达到 0.842), 相比之前所研究的 14 种不同病理类别(肺不张、实变、浸润、气胸、水肿、肺气肿、纤维化、积水、肺炎、胸膜增厚、心脏肥大、结节性肿块和疝气),它能够展示出更好的分类性能6。
横向扩展实验的关键技术之一便是使用集成。通过该技术,可以训练多个学习器,并行构造一组假设,并通过归约操作将它们结合起来。研究人员发现,这足以有效利用 CPU 优势,可提高最终分类准确度并有效控制总训练时间。
推进神经机器翻译
神经机器翻译 (NMT),例如基于注意力模型的转换模型(使用神经网络翻译人类语言)是热点研究的领域,旨在显著提高机器翻译性能。当前的方法因过多使用内存而遇到了阻碍。在与优步、亚马逊、戴尔易安信和英特尔的研究人员合作下,SURFsara 研究人员报告称,通过将假定的稀疏张量转换为密集张量,然后用密集梯度缩减替换稀疏梯度聚集,对基于 Horovod MPI 的分布式训练框架进行修改,进而降低了转换模型的内存占用量。
神经机器翻译利用 CPU 功能(包括出色的内存容量)取得了新的进展。其代码使用密集式表征,从而使 64 节点运行所需的内存容量减少了 82 倍以上(从 11,446 MB 减少至 139 MB)7。而且,累积运算所需时间也减少了 25 倍以上(从 4,321 毫秒减少至 169 毫秒)。
计算时间从一个月缩短为六个小时
研究人员将 NMT 工作从稀疏表征转换为密集矩阵表征——这一新做法为显著改善扩展开启了新的可能。原先使用单个节点需耗时一个月,而现在使用 200 个节点则只需 6 个多小时(速度提高了 121 倍)。通过允许使用基于 CPU 的高性能计算基础设施,这一成果可以显着提高 NMT 研究人员的效率。研究人员报告称,维持 300 个节点的出色扩展效率的能力表明继续进行横向扩展的价值远超截至目前所作的一切尝试。这显然比最初无法有效扩展超过 8 个节点要好很多。在德州大学高级计算中心 (TACC) 的 Stampede2 超级计算机上,利用与 100 Gbps 英特尔® Omni-Path 架构互连的英特尔® 至强® 可扩展铂金 8160 处理器进行了仅 CPU 扩展测试,实现了多达 1200 个 MPI 进程(300 个节点)的 91% 弱扩展效率,以及 400 个 MPI 进程(200 个节点)的 65% 强扩展效率。
张量累积的空间/时间(稀疏聚集与密集缩减)
他们在本篇文章中所提及的软件变更已整合到上游的 Horovod 0.15.2 及更高的版本中。
根据改为使用 CPU 后的记录设定结果67显示,集成英特尔® 深度学习加速(英特尔® DL Boost)技术的第二代英特尔® 至强® 可扩展处理器在人工智能领域(包括人工智能研究前沿发现的棘手问题)能够提供非常显著的优势。
解决方案组成部分
文中所提及的实验是在戴尔易安信高性能计算和人工智能创新实验室 (Dell EMC HPC & AI Innovation Lab) 的 Zenith 集群,以及位于德克萨斯州奥斯汀市的 TACC 的 Stampede2 集群上运行,均采用英特尔® 处理器和英特尔® Omni-Path 架构。在这两种情况下, 研究人员均使用了 Python 2.7,辅以利用英特尔® 数学核心函数库(英特尔® MKL)的 TensorFlow 优化版,以及可在 Horovod 0.15.2 及更高版本中获得的一些修改。
每个 Zenith 节点均包含两个英特尔® 至强® 可扩展金牌 6148/F 处理器、192 GB 内存和一个 M.2 加速驱动器,以搭载无法让用户访问本地存储的操作系统。各节点通过 100 Gbps 英特尔® Omni-Path 架构互连,共享存储则由 NFS(用于主目录)和 Lustre 文件系统组合提供。
在 Stampede2 上的研究使用了 SKX 分区,该分区由 1,736 个节点组成。每个节点都配置了两个英特尔® 至强® 可扩展铂金 8160 处理器、192 GB 内存,以及用于操作系统和本地临时目录的 200 GB 内部固态盘。所有节点都与 100 Gbps 英特尔® Omni-Path 架构互连,并连接到基于 Lustre 的共享文件系统。
更多信息
若要向英特尔了解更多有关高性能计算的信息,请访问 intel.cn/hpc
更多有关 CPU 上横向扩展的信息,请参阅本文章。
关于 SURFsara 与戴尔易安信和英特尔在胸部 X 射线方面的合作研究以及在横向扩展方面所取得的成就,请参阅他们早前发布的博客、有关折叠式集成的文章以及该 ISC19 海报中的全新研究内容。
有关神经机器翻译的洞察,请参阅该 ISC19 文章。
更多有关戴尔易安信 PowerEdge 服务器信息,请访问 dellemc.com/hpc。
关于性能和基准测试程序结果的更多信息,请访问 http://www.intel.cn/benchmarks。