英特尔助金山云实现大数据存算分离解决方案降本增效

概述

  • 得益于独特的架构优势,以及搭载的英特尔® 至强® 可扩展处理器和英特尔® ISA-L 存储加速库,金山云大数据存算分离解决方案优化了金山云 KingStorageOBS 对象存储 CRC 校验和 EC 纠删码的处理效率,全面提升了对象存储系统的 I/O 访问性能,在确保可靠性和性能的基础上,将存储资源利用率提升 100%,实现采购成本降低约 35%,每年的运维成本降低约 25%。

《IDC MarketScape: 中国大数据管理平台厂商评估,2020》 报告显示:大数据平台的数据存储量在 2019~2024 年以 26% 的年复合增长率 (CAGR) 高速增长。

为了挖掘海量数据中的价值,企业普遍增加了在大数据技术与解决方案上的投资。对于数据较为敏感的企业,构建基于私有云的大数据方案成为重要选择。此外,AI、物联网等创新业务凸显了存储与计算分离在控制成本、按需索取等方面的优势,也给企业的大数据战略带来了新的挑战.。

存算一体结构面临时代挑战

分布式系统基础架构 Hadoop,是大部分大数据平台构建的基础。为了降低数据迁移带来的网络带宽消耗和集群设计的复杂度,提高单机吞吐量,Hadoop 采用了存储和计算一体化的处理方式。然而随着数据的爆炸式增长及大数据集群规模的快速增长,存储与计算融合的方式面临着成本、存储接口复杂、资源无法被充分利用、管理效率提升受限等挑战。HDFS (Hadoop Distributed File System) 作为大数据中的分布式系统,除了面对存算一体化所带来的挑战之外,还面临着性能不足、扩展性较差和成本较高的挑战。

金山云打造基于英特尔® 架构的大数据存算分离解决方案

基于英特尔® 至强® 可扩展处理器和英特尔® 智能存储加速库 (英特尔® ISA - L),金山云打造了大数据存算分离解决方案,其包括金山云 KingStorage - BDG 大数据存储网关、金山云 KingStorage - OBS 对象存储。

金山云大数据存算分离解决方案优势

  • 以数据为核心,以存储为基石;
  • 支持多种类型的数据存储和应用类型;
  • 降低大数据存储的 TCO;
  • 充分发挥商用存储内置的丰富功能特性。

KingStorage - BDG 大数据存储网关

兼容 Hadoop 生态应用,基于全局缓存和统一命名空间提供高性能的数据处理,可用于替换 HDFS 系统,提供弹性伸缩的数据存储能力;对于计算应用,可提供很好的数据本地化或就近加速数据 I/O 性能,相比原生 s3a 方案,效率明显提升,同时节约节点带宽;对于底层存储系统,可通过统一命名空间融合多种底层存储系统,对计算框架的使用可以做到透明。

金山云 KingStorage - OBS 对象存储

基于多年商业验证的 EB 级分布式存储基础架构,输出云原生对象存储服务能力,可提供弹性扩展、随需而用、低成本的海量非结构化数据存储解决方案;系统设计采用分层模型、并发模型、缓冲技术、NoSQL 存储等关键技术,使得产品具有大吞吐和高并发的特点;支持弹性扩容,兼容标准的 S3 对象存储协议,可部署于标准的 X86 服务器,有效降低用户的首次采购成本、后期扩容存储和存储系统的日常维护成本。

性能验证

  • TPC-DS 测试场景下的测试项中,KingStorage – BDG 大数据存储网关的性能优于 HDFS 的比例达到 90%
  • 采用英特尔® ISA – L 之后,金山云 KingStorage – OBS 对象存储 CRC 校验和 EC 纠删码的性能提升了 5 左右。

收益:助力用户充分挖掘大数据应用价值

金山云内部测算显示,金山云大数据存算分离解决方案基于存算分离模式,并在存储层采用纠删码替代多副本的数据冗余方案在确保可靠性和性能的基础上:

  • 存储资源利用率提升 100%
  • 实现采购成本降低约 35%
  • 每年的运维成本降低约 25%

该解决方案能够以私有云的方式进行交付。按照客户需求,其支持纯软件交付、一体机交付、定制化交付等不同模式,用户在小规模的基础上,可以按照容量和性能要求,分别增加对象存储节点数和 BDG 大数据存储网关节点数量。目前,该解决方案已经在金融、互联网、制造、公共服务等行业得到了广泛应用。