基于第五代英特尔® 至强® 可扩展处理器以更低计算成本加速基因组分析

基于第五代英特尔® 至强® 可扩展处理器以更低计算成本加速基因组分析

概述

  • 第五代英特尔® 至强® 可扩展处理器既能节省功耗,又能以更低成本提供加速基因组研究所需的计算性能。测试显示,博德研究所基于该处理器的基因组分析方案实现了高达 61% 的吞吐量提升,基因组分析的单位成本仅为 2.34 美元,并且每个 WGS 样本的功耗仅为 0.341 千瓦时,这意味着每个 WGS 样本产生的二氧化碳排放仅为 120.7 克。

业务挑战您的基础设施能以多快的速度为全球范围内的疾病及治疗方案提供重要洞察?您是否正为硬件速度缓慢而数据分析成本又在上升而忧心?

解决方案总览及概述

解决方案:基因组分析是现代科学的核心。研究人员可以利用基因组分析来推动新药的研发,医生可以利用基因组分析来为各种疾病探寻诊治方案。基因组分析还在全球范围内被广泛应用于群体测序、作物改良和人类微生物组研究。研究人员从中获取洞察的速度越快,能够改善人类生活的速度也就越快。

英特尔与隶属于美国麻省理工学院和哈佛大学的博德研究所联合开发了一个由端到端软硬件包构成的基因组分析参考设计,并对其进行了验证。该参考设计旨在优化基因组分析解决方案的性能及简化解决方案的大规模部署,可帮助用户节约在软硬件评估方面所花的时间、精力和成本。该参考设计的所有组件均经过调优,可充分利用英特尔® 架构的全新创新技术。

性能并不是选择部署这一基因组分析解决方案的唯一原因。它还具备更优的总体拥有成本 (TCO):基因组分析的单位成本仅2.34 美元(按照第二分析阶段的计算成本计算)1。在单位成本降到如此低水平的情况下,研究人员将能进行更多分析,挖掘更多新洞察。

结果:基因组分析工具包 (Genomics Analytics Toolkit, GATK) 软件在第五代英特尔® 至强® 可扩展处理器上的测试结果与第四代英特尔® 至强® 可扩展处理器相比,吞吐量提升高达 61%2。更多详情,请参阅第 2 页关于结果的完整讨论。

测试方法

测试集群包括安装在 OpenHPC 平台上的一个头节点和四台计算服务器(软件信息详见“配置详情”部分)。工作流程管理系统采用 Cromwell,该系统经过配置后可以使用 Slurm(后端调度程序) 来提交吞吐作业(70 个 WGS 样本)。输入数据集采用公开的 NA12878 30x 测序深度的全基因组测序 (WGS)。单个数据集的大小约为 85 GB,每个 WGS 分析完成后至多消耗 480 GB。图 1 为测试设置示意图。

测试设置  

图1. 测试工作流程设置

结果

近期未更新过基因组分析硬件和软件的客户可通过升级到全新的基于英特尔® 技术的基因组分析加速解决方案来实现吞吐量的大幅提升。在这个经过验证的参考设计中,英特尔已证明,使用第五代英特尔® 至强® 可扩展处理器,每节点每天的吞吐量可高达 14.81 个 WGS 样本。与上一代解决方案相比,性能提升高达 61%(见图 2)2。这得益于新一代处理器与上一代处理器相比,具有以下特性:
 

  • 内核数增加高达 1.5 倍
  • 频率更高(2.3 GHz 对比 2.0 GHz)
  • 内存带宽更高(5600 MT/s 对比 4800 MT/s),提升高达 1.16 倍
  • L3 缓存容量更大
     

此外,英特尔开发的基因组内核库 (GKL) 与博德研究所的 GATK 集成后,软件得到进一步优化,能更好地利用英特尔® 高级矢量扩展 512(Intel® Advanced Vector Extensions 512,英特尔® AVX-512),因此也带了额外的性能增益。

图 2. 将基因组分析集群从第四代英特尔® 至强® 可扩展处理器升级到新一代英特尔® 至强® 可扩展处理器,基因组分析吞吐量提升高达 61%2

与前几代英特尔® 至强® 可扩展处理器相比,升级到第五代英特尔® 至强® 可扩展处理器后,每节点每天处理的 WGS 样本数量增加至多达三倍以上(见图 3)2

图 3. 与过去的硬件相比,全新英特尔® 基因组分析加速解决方案将分析速度提升至多达三倍以上,从而解锁更多可用于造福人类的基因信息2

配置详情

下表提供了使用第四代和第五代英特尔® 至强® 可扩展处理器进行性能分析和特性测试时所用基础设施的组件和设置信息。有关头节点和前几代处理器的配置详情,请参见尾注2

英特尔® 处理器让基因组分析更加可持续

基因组学是推动医学进步的前沿学科,但可持续发展也是研究人员需要优先考虑的问题。如何在数据中心功耗和高性能基因组计算之间取得平衡是一个重要关切。好在第五代英特尔® 至强® 可扩展处理器既能节省功耗,又能提供加速基因组研究所需的性能。近期开展的测试显示,实现高达 61% 的代际吞吐量提升,每个 WGS 样本的功耗仅为 0.341 千瓦时,这意味着每个 WGS 样本产生的二氧化碳排放仅为 120.7 克3

•  每个 WGS 样本的功耗仅 0.341 千瓦时
•  每个 WGS 样本的二氧化碳排放仅 120.7 克

结论

基因组分析在流行病期间帮助人们获取重要洞察。它革新了疾病的治疗方法,使临床医生能够根据个人的基因组成选择更有可能奏效的治疗方案。它甚至还能帮助科学家确定如何更好地保护地球上重要的传粉昆虫——蜜蜂,让它们免受病害和环境变化的影响。首次完成人类完整基因组测序花费了长达 13 年的时间,但如今处理一个 WGS 样本只需几个小时。英特尔致力于与基因分析生态系统合作,持续加速基因组测序并降低其成本。本文介绍的这一经验证的基因组分析解决方案可降低基因组测序的单位计算成本,加速 WGS 样本处理,促进解决方案的快速、便捷部署,为实现前述目标做出贡献。