随着更多企业 IT 系统的云化步伐从边缘化或非关键型业务迈向核心、关键业务,云平台和云服务的构建者们正越来越多地考虑如何为渴求高性能、低时延的计算密集型和数据密集型应用,以及要求严苛的数据安全类应用提供更优的支持,这也就催生了裸金属云 (Bare Metal Server Cloud,BMS Cloud) 市场的高速增长。凭借其源自物理机的性能和安全优势,以及对云主机灵活性和弹性的兼顾,裸金属云正在帮助性能、安全和成本敏感型用户在关键业务场景中获得更有效的助力。
裸金属云的这种兼顾优势显然无法通过部分硬件或软件的更新换代就能实现,更需要从云平台的整体架构着手。无论是架构的全局设计,还是计算、存储和网络硬件的选择、搭配和平衡,再到基础设施管理层和应用层软件的开发、调优,最后到平台的部署和运维方式的优化,都需要考虑到位,因为它们对裸金属云方案最终的工作效率都会产生直接影响。
作为中国专注于裸金属系统解决方案开发的系统集成商之一,珑微系统一直都很重视这种从整体架构层面推动裸金属云方案创新的发展路径。基于此,珑微系统正携手其全方位技术合作伙伴英特尔,凭借自身在裸金属服务器系统开发和集成方面积累的经验和优势,并导入英特尔® 至强® 可扩展平台的三大核心产品——主攻算力提升的第二代英特尔® 至强® 可扩展处理器、打破存储瓶颈的英特尔® 傲腾™ 持久内存和可为关键业务提供高速数据传输支持的英特尔® 以太网 800 系列网络适配器,再搭配自研的 DoorOS 云操作系统,为用户打造了纯裸、混裸和独裸三种裸金属云方案,在具备高性能、高密度云计算能力输出的同时,实现了敏捷有序的裸金属云调度管理能力,可为云超算中心、云游戏等领域的关键业务和 IDC 云化升级等场景提供更高效、更安全和更具成本优势的支撑平台。
珑微系统裸金属云解决方案实现的优势:
• 第二代英特尔® 至强® 可扩展处理器与英特尔® 以太网 800 系列网络适配器的搭配,能更好地满足云超算中心关键业务在数据计算和传输性能上的严苛需求;
• 相比传统的、基于机械硬盘或固态盘的方案,英特尔® 傲腾™ 持久内存的导入及其与第二代英特尔® 至强® 可扩展处理器的组合,能帮助云游戏应用场景显著提升高并发数据交互和存储操作所需的 I/O 性能,并降低系统延时;
• DoorOS 云操作系统提供的运维管理功能及 SDS (Software Defined Storage,软件定义存储) 块存储系统等能力,可充分利用英特尔® 至强® 可扩展平台提供的数据计算、存储和传输能力,为传统 IDC 机房的云化升级提供更可靠的方案。
裸金属云正成为企业关键业务上云的重要助力
在云平台、云服务已成为各行业实施数字化、智能化转型重要基石的今天,衡量企业云化成功的标准已不局限于企业是否上云,更要看企业关键业务是否已上云或正在云化过程中。
相比此前将边缘的或非核心的业务迁入云中,用户在做出关键业务云化的决策时,无疑会更为审慎。抛开非技术的因素,仅看云平台或云方案的选型,很多用户就正被这一问题所困扰——目前应用较为广泛的云平台或云方案,多是基于虚拟化或容器技术实现的通用云主机。它们虽有灵活、易部署、弹性可扩展及高性价比等优势,但在承载对高性能、低延迟、高安全有严苛要求的关键业务应用时,依然存在性能损耗过大、虚拟机/容器间隔离性不足与数据安全难以保障等缺陷,这就让不少用户对关键业务的云化心存顾虑,宁愿固守传统物理服务器方案。
不过,也正是因为用户们存有这样的顾虑,才让能更好地兼顾物理机的性能和安全,以及云主机的灵活和弹性的裸金属云方案异军突起,逐渐赢得用户的青睐,并伴随超算 (即高性能计算,亦简称为 HPC)、人工智能 (Artificial Intelligence,AI)、大数据分析及 5G 通信等关键业务场景的高速发展而获得广泛部署。一些观点认为,未来企业级云计算基础设施市场,将会更多地被吸引到裸金属云中1。而裸金属云市场的高速增长也有力地证实了这一观点,一份市场预测报告表明,到 2025 年,全球裸金属云市场收入或可达 262 亿美元,年复合增长率为38.4%2。
市场虽然对裸金属云保持乐观预期,但要让用户借助裸金属云快速形成高效生产力却并非易事。一方面,对裸金属云解决方案,特别是基于公有云方式提供的方案更感兴趣的用户,主要是性能、安全和成本敏感型用户,如何在有限的成本与空间内,以更具优势的硬件基础设施为用户提供更高密度、更高性价比的云计算力输出,是系统集成商和云服务提供商吸引这类用户时必须直面的挑战;另一方面,如何将传统物理机和云主机的优势更充分地聚合在一起,为用户提供更优的裸金属云部署、运维和管理能力,降低使用门槛并发挥硬件优势,也是裸金属云赢得更多市场份额的重要前提。
这两个挑战或难点,正是珑微系统开发裸金属云方案时重点考量的攻关方向。珑微系统也早就认识到: 裸金属云不同于通用云主机,它更趋于传统物理服务器的云化,而非将计算、存储和网络资源进行虚拟化和资源池化后再重新调配,所以没有虚拟化开销带来的性能损失,并可以直接访问裸金属服务器的处理器和内存,具备了物理机的特性和优势。但也正因如此,当直面需要高密度算力、低延迟 I/O 的关键业务应用场景时,裸金属服务器的硬件性能、软件调优和部署方式,对工作效率的影响将更为直接,这就需要系统集成商和云服务提供商在构建方案时,对服务器软硬件的选择更为审慎,尤其是在硬件,即计算、存储和网络的搭配组合上,要力求不出现明显的性能短板。
从这一核心诉求出发,珑微系统最终选择了由英特尔提供的全新至强® 可扩展平台,包括第二代英特尔® 至强® 可扩展处理器、英特尔® 傲腾™ 持久内存和英特尔® 以太网 800 系列网络适配器,作为算力、存储和网络性能的基石,打造出了丰富的裸金属服务器产品 (如图一所示),以及纯裸、混裸和独裸三种方案。这些方案,可以有的放矢地用于云超算中心、云游戏等云上关键业务场景的加速,以及 IDC 机房的云化升级。
图一:珑微系统裸金属服务器产品家族
应用场景一: 强劲算力 + 高速互联,成就高效云超算中心
一直在科学研究领域中担当主角的超算中心,本有望凭借算力优势将自身的用武之地进一步拓展到更多对算力有着迫切需求的关键业务场景,如深度学习、大数据分析、CG 渲染以及实时音视频处理等。可传统意义上的大型超算中心往往受限于专用性强、部署周期长、使用成本高、运维复杂等问题,很难迈出这一步。相比之下,基于裸金属云方案构建的云超算中心,则能在保持性能优势的同时,兼具使用灵活、部署便捷、成本可控、运维管理简单等特点,更适于在计算密集型应用领域中发挥关键作用。
以风力发电领域为例,在其关键的功率预测上,传统多是基于历史资料及人工经验来进行,往往造成弃风率过大等问题。为提升发电效率,许多风电企业正利用深度学习方法,对风力、风向等因素展开实时精准预测,来获得智能化的功率预测结果,但要将不断改进和迭代的风电功率预测模型部署到传统超算中心,往往会费时费力且成本不菲,亟需创新方案予以应对。
如图二所示,来自亚数云的深海之光云超算中心,就是以珑微系统裸金属服务器为基础,采用珑微系统纯裸方案 (即通过软件和固件实现裸金属功能和特性,降低性能损耗) 构建,它为用户提供了高性能计算处理和数据高速互联能力,结合弹性伸缩、灵活计费、自动化部署与管理等云服务功能,可帮助风电企业有效应对上述挑战。
图二:深海之光云超算中心特性
在这一应用场景中,新方案主要发挥了将强劲算力与高速网络融合而获得的性能优势。由第二代英特尔® 至强® 可扩展处理器打造的十万核心级别计算资源池,能更为充分地满足云超算场景中不断膨胀的算力需求。持续优化的微架构、更多的核心/线程数量和更大容量的高速缓存,以及众多在芯片硬件层面集成的性能增强技术,如英特尔® 高级矢量扩展 512 (英特尔® AVX- 512) 技术,使第二代英特尔® 至强® 可扩展处理器能够为超算任务稳定输出强劲的并行计算处理能力。
为应对超算任务对海量数据的高频率读写交互需求,珑微系统纯裸方案采用英特尔® 以太网 800 系列网络适配器作为解方。该系列以太网适配器引入了应用设备队列 (Application Device Queues,ADQ)、动态设备专用化 (Dynamic Device Personalization,DDP) 等创新技术,并支持 iWARP、 RocEv2 以及基于 TCP 的 NVMe 等存储传输协议,可帮助构建起高效的 100GbE 远程直接内存访问 (Remote Direct Memory Access,RDMA) 网络,以可控的成本实现海量数据的大规模处理和传输,进而满足关键业务应用对于数据的高速、低延时传输和访问需求。
应用场景二: 高性价比持久内存,满足云游戏高强度数据交互 I/O 需求
除云超算中心外,云游戏也是以公有云方式提供的裸金属云方案的主要应用场景之一。在这一场景中,游戏本体需要存储在云端的裸金属服务器中,以应对玩家在接入系统、运行游戏时对数据 I/O 和存储效率的严苛要求。
面向这些要求,珑微系统在裸金属云方案中引入了第二代英特尔® 至强® 可扩展处理器,并组合以英特尔® 傲腾™ 持久内存。第二代英特尔® 至强® 可扩展处理器可为云游戏的音视频采集、处理、编解码,以及控制、采集、重现与网络传输控制等功能提供必需的算力支持,通过与英特尔® 傲腾™ 持久内存高效协同,可大幅降低系统延迟,提升 I/O 效率,有效破解游戏中海量数据交互与存储的性能瓶颈。
此前的云游戏应用场景,涉及数据交互和存储时还多是采用传统机械硬盘 (Hard Disk Drive, HDD) 或固态盘 (Solid State Drive, SSD),然而这些方案无法在性能上真正满足应用需求。如果全部换用高性能但同时高成本的 DRAM 内存,又会给云游戏服务商带来巨大的开销。
英特尔® 傲腾™ 持久内存的出现,及其对传统内存-存储架构的颠覆,为这个两难局面带来了更为理想的解决方案,它以近乎 DRAM 内存的性能表现、与之相比更为出色的性价比和 DRAM 内存所不具备的非易失特性,为云游戏的高性能数据交互和存储场景提供了更优的性能表现和更大的内存容量。在实际案例中,已经有云游戏服务商将热门游戏迁移至基于英特尔® 傲腾™ 持久内存的珑微系统裸金属云方案,且终端用户的体验获得了明显的改善。
应用场景三: 高密度全模块设计,加速传统 IDC 机房云化升级
随着公有云服务向更多细分市场加速渗透,传统 IDC 机房也在积极做出变化,以云化升级来继续保持市场竞争力,并有效应对越来越高的成本压力。珑微系统也针对这一领域提供了具备全模块化设计优势的混裸方案,来加速 IDC 服务商的云化升级步伐,同时为其增添了高密度、高可靠及易部署等优势。
如图三所示,珑微系统混裸方案的核心是通过主板集成 CPLD 芯片、 FPGA 芯片和 DoorOS 云操作系统的组合,来构成软硬一体的裸金属云方案架构。
图三:珑微系统裸金属混裸方案架构
这一架构的优势在于,通过 FPGA 芯片对平台物理服务器实施管理,用户只需插入带有 CPLD 芯片的物理节点模块即可完成部署,不仅方案实施成本更低,交付时间也更短,自主开通服务器时间仅需 8-30 秒3。同时,模块化设计也使同一机柜最多可部署 300 台基于英特尔® 架构处理器平台的服务器,能帮助 IDC 厂商更为有效地整合计算和存储资源,在寸土寸金的 IDC 机房中大幅提升算力输出密度。
在硬件基础设施之上,由珑微系统自研的 DoorOS 云操作系统 遵循软件定义数据中心 (Software Defined Data Center,SDDC) 的理念,通过模块化组件模式,为方案提供了敏捷有序的调度和管理能力,不仅实现了各类基础资源和应用的动态融合调度与高度协同,也针对运维和管理效率实施了大量优化,实现了一键式批量部署、智能化自修复运维以及硬件故障自主迁移等能力。这些优势可助 IDC 逐步实现无人化值守,有效降低总体拥有成本 (Total Cost of Ownership, TCO)。
此外,基于 SDS 的块存储系统和物理隔离的存储网络等能力的加入,还可帮助用户获得更为高效、弹性和易扩展的存储能 力,以及基于物理隔离的安全机制。
来自最终用户的实践验证
目前,涵盖上述三大应用场景,基于全套英特尔产品与技术的珑微系统裸金属云方案,已凭借优异的特性实现了广泛部署,并收获了诸多令人振奋的用户反馈。例如在某 AI 图像识别系统方案应用中,其单台基于英特尔® 架构处理器的 N6000 超高密度裸金属服务器,可在 1 秒内完成 7 亿次的图像比对,速度相较传统服务器提升 35% 以上。同时,其成本也低于原服务器方案,让用户获得了性能与成本的 ”双赢”4。
在另一个高密度三维建模计算集群应用案例中,珑微系统的新方案以高密度优势,帮助用户把空间利用率提升了 15 倍。同时,DoorOS 云操作系统等高效服务器管理方式的引入,也帮助用户减少了 30% 的设备管理成本,并在降低硬件成本的同时节省了 30% 的用电成本和 70% 的日常运维成本,有效降低了 TCO5。
未来展望
在这些成功实践的激励下,珑微系统与英特尔也准备进一步深化合作,将更多基于英特尔® 架构衍生出来的领先产品、技术与方案,如第三代英特尔® 至强® 可扩展处理器、新一代英特尔® 傲腾™ 持久内存、主板级主动诊断自愈引擎、基于 IP 网络的 NVM-oF 全闪存存储系统等融入下一代高性能、低功耗和低成本的裸金属独裸系统方案中,以进一步强化裸金属云方案的综合竞争力,为更多行业企业的云化,特别是其关键业务的云化献技献力。