加速基因解密:除了计算也要存储

深圳国家基因库导入英特尔® 技术,提升生命科学大数据分析和存储能力。

文章摘要:

  • 本案例研究介绍了英特尔携手深圳国家基因库构建具备更强数据分析和存储能力的端到端的高性能计算解决方案平台,以攻克日益凸显的基因组数据分析和存储挑战以及应对不断增长的应用需求。

  • 通过引入英特尔® 至强® 可扩展处理器及其周边技术英特尔® OPA,在基因组数据操作、分析、组装、测序和对比等方面实现了显著提升;通过引入英特尔® FPGA则做到了在大幅提升基因组分析速度的同时有效降低计算成本;英特尔® QAT的采用则为深圳国家基因库高性能计算平台带来了明显的GZip Level 1和GZip Level 4加速优势。

引言

基因资源在今天已成为国家生命科学的战略资源,承载中国这一战略资源的深圳国家基因库*,在 2011 年经国家发改委等四个部委批复同意后,由深圳市政府依托华大集团*(简称华大)下属深圳华大生命科学研究院*(原深圳华大基因研究院)组建,并于 2016 年在深圳大鹏新区正式投入运营。它是中国首个获批筹建的国家级基因库,也是世界上继美国国家生物技术信息中心 (NCBI)、欧洲生物信息研究所 (EBI) 和日本 DNA 数据库 (DDBJ) 之后的第四个国家级基因库。

深圳国家基因库旨在以 “三库两平台” 的结构,形成从资源到科研、产业的全贯穿全覆盖模式,实现资源、大数据、大科学、大产业的联动。截止目前,它已实现 2,500 万管生物样本存储能力,建立国家基因库生命大数据平台 (CNGBdb),数据存储能力达 95PB。1 它通过搭建基因资源挖掘的基础性支撑平台,以海量生物资源的存、读、写能力为基础,搭建起基因资源挖掘公益性、开放性、支撑性、引领性服务平台,致力于保护我国特有的珍贵遗传资源,实现基因及数据资源共享利用,促进基因组学在精准医疗、农业育种、海洋开发、微生物应用等方面的前沿探索与产业转化,进而推动生命科学和生物产业的发展。

图 1. 深圳国家基因库三库两平台结构(图片来源:由深圳国家基因库提供)

负责建设和维护深圳国家基因库的华大*,作为全球领先的基因组学研发机构,秉承 “基因科技造福人类” 的使命,一直在切实推动国家基因科技成果转化,实现基因科技造福人类。华大不仅可提供完全拥有自主知识产权、高通量基因测序仪,并且承担了组建和运营深圳国家基因库的整体任务。

众所周知:基因科技从它诞生开始,就与信息技术密不可分,整个基因研究的发展实际上是生物技术与信息技术的融合。举例来说,每个人都有 50 万亿个细胞,每个细胞里的 DNA 分子又由 30 亿个碱基对构成2,可想而知,完整的人体基因组数据量是多么的庞大。要对如此庞大的数据进行分析比对,深圳国家基因库的计算能力和数据中心的存储能力将面临巨大的挑战,而且随着基因采样、分析和存储规模的扩大,这一挑战只会越来越严峻。

有鉴于此,深圳国家基因库携手英特尔,积极导入了包括 英特尔® 至强® 可扩展处理器、英特尔® ARRIA® 10 FPGA 以及 英特尔® QuickAssist 技术(以下简称英特尔® QAT)等一系列创新产品技术,构建具备更强数据分析和存储能力的端到端的解决方案平台,来加速深圳国家基因库的基因解密能力,以求造福大众、回馈社会。

面临挑战

基因组原始数据本身结构复杂,获取有别于其他数据:每一份基因数据本身体量都很大,且其获取有赖于基因测序仪技术的发展。人类完成第一次全基因组测序耗时 13 年,耗资近 30 亿美元,到目前已降至几十个小时和 600 美元以内3,使得这项技术终于有望飞入寻常百姓家。因此,获取足够数据的能力就成为了奠定深圳国家基因库的基石。

基因组数据的分析和存储挑战凸显:比如,目前人的全基因组研究,一般需达到至少 30X 的测序深度,即每个人的基因组数据约有 100GB 的原始数据4,如果把全中国人的基因数据全部读出来:如何存、怎么处理就是一个大难题。在序列对比或者拼接阶段,需要一次性将海量数据载入到内存中并且加以处理,如果内存不够或者性能有限,就很可能无法进行对比或者进行下一步的计算等工作。如何寻找更高效的数据处理方案,如何提升数据解读速度,也是基因行业亟须克服的挑战。

应用需求不断增长,平台基础设施总是显得捉襟见肘:越来越多的科研项目和应用促使基因数据以超越摩尔定律的速率快速积累,使得相关数据中心的基础设施投资必须面向未来的应用需求,以减少总体拥有成本。这使得简化部署和可扩展性成为深圳国家基因库数据平台关注的焦点。

解决方案

上述挑战,使得深圳国家基因库在进一步的建设和升级中,必须要深度整合生物技术、信息技术和网络,即 BT+IT+Network。英特尔与高性能计算相关的一系列技术,以及优化的基因组学代码为此提供了强大且可靠的解决方案,正帮助深圳国家基因库破解基因库构建与运维中的种种挑战,通过吞吐量的提升,缩短从原始测序数据到获得洞察所需的时间。

图 2. 使用高性能集群加速基因组分析,减少从原始测序数据到制定治疗计划所需时间(图片来源:https://www.intel.cn/content/dam/www/public/cn/zh/documents/solution-briefs/health-analytics-reduce-cost-cn.pdf

首先,在基因测序仪方面,作为行业翘楚的华大推出了 BGISEQ-500 等多款高通量测序仪,大大节省了生命科学领域基因组数据产出的成本,并在新一代测序仪中使用了英特尔® QAT 来加速测序数据压缩。测序价格的下降和数据通量的提升,使得基因测序处理成为了一个名副其实的 “高性能计算 + 大数据处理” 过程。

其次,面对海量基因数据的传输、存储、管理和分析难题,深圳国家基因库的策略是构建基于集群的高性能计算平台,并以高密度并行处理能力可共享可重构可定制作为其核心诉求。基于英特尔® 至强® 可扩展处理器和 ARRIA® 10 FPGA 协处理器,正在成为深圳国家基因库数据平台的支柱,使得该平台可以兼顾不同工作负载的需求实现卓越的海量数据存储和分析能力。

图 3. 深圳国家基因库集群架构5(CPU 内核节点总数 51,008,集群峰值总 IO 吞吐 130GB/s,平均值 50GB/s)

(图片来源:深圳国家基因库内部资料《国家基因库:国家基因库数据中心架构及现状》)

成果

深圳国家基因库依托生物资源样本库丰富的生物样本资源,以及高通量测序的数字化平台高性能计算平台信息存储能力信息分析能力的支撑,能够有效采集、存储和分析海量的数字化遗传数据资源,推动生命科学研究及应用发展。这也标志着,生命科学已从过去传统的实验性科学转向大数据科学。

目前,深圳国家基因库已经装备了一系列国产高通量测序仪6,高性能计算集群的处理器(原有处理器和全新至强® 可扩展处理器)内核节点总数达 51,008 个,并带有 11 个 FPGA 异构节点。数据产出能力全球领先,目前已超过 10Pb/年,相当于一年 10 万人以上的全基因组数据产出规模,未来基因库的测序能力还会持续提升。6

至强® 可扩展处理器提升高性能计算集群计算节点的性能和效率

高性能计算集群不论规模大小,都需要在计算、内存、存储和网络之间实现平衡。使用英特尔® 至强® 可扩展处理器,利用其出色的扩展能力则非常有助于实现这种平衡。不论是其大幅提升内核数量,还是全新的 MESH 架构,抑或是其集成的 AVX-512 技术,以及与其搭档的英特尔® Omni-Path 架构等周边技术和组件,都能更大限度地释放计算、存储和网络的性能潜力,避免在其中任何一环出现瓶颈。

深圳国家基因库的组学数据产出能力 2018 年比 2016 年增长了近 6 倍。7 而随着生命科学技术的快速发展,对基因组学数据的产出需求也越来越大,深圳国家基因库也将持续提升其数据产出能力。为应对日益增加的数据需求挑战,深圳国家基因库在英特尔的协助下将全新的英特尔® 至强® 可扩展处理器应用于其计算机节点和二级存储节点,并获得了可喜的性能提升。比如,深圳国家基因库对搭载 2 个全新英特尔® 至强® 金牌 5120T 处理器的测试机与搭载 2 个早期的至强® E5645 处理器的 IBM* 3630 M3 服务器* 进行了性能比较,测试维度涉及 NAS PB 高性能计算性能、MKL 多线程每秒浮点运算能力、STREAM 内存带宽、Pi 并行迭代计算耗时、Pigz 压缩速率、make GCC 编译性能六类基准性能,以及与基因组数据相关联的操作、分析、组装、测序、比对等特定性能(SMCPP、Samtool、Megahit、Mecat2pw、Minimap2);测试结果显示,各项指标均有显著提升(约 2 至 10 倍)。8

借助 FPGA 协处理器实现基因组测序算力突破

如前文所述,深圳国家基因库致力于为我国生命科学研究和生物产业发展提供基础性和公益性服务平台。借助其生命解读能力,加快基础科学研究向产业应用转化,为农业育种、海洋开发、微生物应用、生物多样性等基础科研提供大平台大数据支撑;助力环境保护,生态改善,控制出生缺陷,实现精准医疗,护航健康中国。海量的生命大数据应用研究对存储容量、网络宽带速度、计算分析处理能力均提出了更高要求。

为了应对这类计算密集型工作负载,深圳国家基因库基于英特尔® 至强® 可扩展处理器和英特尔® ARRIA® 10 FPGA 的异构计算平台,引用并大规模使用了由华大智造*自主研发的一款专注于二代测序领域的生信分析硬件加速器 MegaBOLT*,主要支持全基因组 (WGS) 及全外显子组 (WES) 的分析。它可借助先进的 CPU+FPGA 异构计算架构与深度算法优化的组合,实现:

- 快速:在速度上与传统分析流程相比有 20 倍的飞跃,海量数据分析转瞬完成。100Gb 全基因组分析时间缩短至 2 小时,6Gb 全外显子组分析时间仅需 10 分钟;9

- 经济:计算成本大幅降低。

图 4. 采用 CPU+FPGA 异构架构的快速经济的 MegaBOLT

(图片来源:深圳国家基因库内部资料《华大智造:生物信息分析加速器白皮书》)

英特尔® QAT 加速测序数据压缩

深圳国家基因库在高性能计算节点和存储节点还评估了英特尔® QAT 的 GZip 硬件加速效果。该技术基于芯片的硬件加速能力可帮助压缩与加密工作负载提高效率,同时改善服务器、存储和网络基础设施的数据传输和保护能力。评估结果显示英特尔® QAT 技术可显著加速 GZip Level 1 和 GZip Level 4,且进程越多优势越明显,详见图 6 和 图 7。10

图 5. 英特尔® QAT:专注数据安全和压缩加速

图 6. 英特尔® QAT GZip Level 1 和 GZip Level 4 压缩测试

(图片来源:Intel® QuickAssist Technology (C6xx) Benchmark (20181030-update))10

图 7. 英特尔® QAT GZip Level 1 和 GZip Level 4 解压测试

(图片来源:Intel® QuickAssist Technology (C6xx) Benchmark (20181030-update))10

英特尔技术助深圳国家基因库数据平台实现高效扩展,并降低总体拥有成本

目前深圳国家基因库高性能计算集群中采用的至强® 可扩展处理器内核数量规模已达 7,764(来自 647 颗处理器)11。这种开放式、高性能、高可扩展也高度可靠的计算平台,使得深圳国家基因库的数据平台和数据中心在单位机架空间内实现了更高的性能,能处理原本更多服务器才能完成的事务,从而能让数据中心在拥有更高性能的同时,减少对能源的消耗和空间的占用,进而有望降低深圳国家基因库数据中心的 IT 基础设施总体拥有成本。

总结和展望

深圳国家基因库作为中国的国家级基因库,不仅要存储海量的生物基因资源,还需要对这些基因资源进行数字化、研发和利用,这是一个浩大的系统工程。深圳国家基因库积极导入包括英特尔® 至强® 可扩展处理器、英特尔® ARRIA® 10 FPGA 以及英特尔® QAT 等一系列技术,构建的基于集群的高性能计算平台,对生命各个阶段和层次的基因数据做更加完善的收集和整理,将数据存储与数据应用对接。未来,深圳国家基因库将与英特尔继续合作,引进更多英特尔的技术和解决方案,以期更充分地释放深圳国家基因库潜能,在解密生命终极密码的道路上继续前行。例如,深圳国家基因库正考虑将可大幅降低延迟和提供全新响应速度12 的英特尔® 傲腾™ 数据中心级固态盘应用到其平台中以应对更高的基因数据分析需求、加速基因组测序和助力精准医疗的发展。