与上一代产品相比,第五代英特尔® 至强® 可扩展处理器实现了令人惊喜的性能提升,能够有助于进一步释放星环科技分布式向量数据库 Transwarp Hippo 的性能潜力,为用户带来强大的向量数据处理能力,这在大模型训练等场景中有着重要的意义,可帮助用户更高效、更精确地打造大模型产品。”
百花齐放的大模型时代凸显了分布式向量数据库的关键角色,追求更高的数据库性能成为推动大模型创新、释放大模型潜力的重要方向。英特尔与星环科技的合作证明,第五代英特尔® 至强® 可扩展处理器可显著提升 Transwarp Hippo 的性能表现,加速海量、多维向量数据处理,赋能智能时代变革。”
挑战
以大语言模型为代表的人工智能 (AI) 应用出现爆炸式增长背景下,企业对于非结构化数据的存储与处理需求出现了快速增长,分布式向量数据库得到了普遍应用。而随着数据处理规模的增长,企业对于分布式向量数据库的性能有着更高的要求,提升性能通常可以从以下几个方面入手:
- 提升 CPU 性能
向量相似度检索、高密度向量聚类等负载属于 CPU 密集型负载,这导致 CPU 成为限制分布式向量数据库性能提升的主要瓶颈,通过升级到新一代英特尔® 至强® 可扩展处理器平台,将有助于提升数据库的处理能力。
- 压缩数据库的海量数据
数据库中的海量数据带来了巨大性能压力。通过数据压缩,将能够减少存储数据所需的空间,并相应地提高 I/O 性能。
- 对于数据库进行性能优化
通过水平扩展架构、基于 CPU 的向量化指令优化、多元芯片加速等技术,将有助于发挥并行检索能力,为海量、多维向量处理提供强大算力支持。
解决方案概述
分布式向量数据库在大模型应用中扮演着重要角色,大模型 + 向量数据库的架构能够让大模型保持数据的实时性,使大模型拥有 “长期记忆”,解决模型需要多次二次训练才能满足不同业务需求。同时,通过多模态信息的向量化,帮助大模型满足回答信息实时性要求。用户可以通过表示学习的预处理方式,将文档、图片、音视频等非结构化数据转化为多维向量,并存储在向量数据库中,从而很好地解决大模型训练中的实时性、精度校正等问题。随着大模型等应用的快速发展,分布式向量数据库的应用场景在不断拓展,但也面临着日趋严峻的性能挑战。
星环科技与英特尔合作,推出了基于第五代英特尔® 至强® 可扩展处理器的 Transwarp Hippo 分布式向量数据库解决方案。该方案利用第五代英特尔® 至强® 可扩展处理器带来的强大算力, 实现了约 2 倍的代际性能提升1,可有效满足大模型时代海量、高维向量的存储和计算需求,能够帮助企业更好地应对大模型时代海量、多维向量数据的高并发和实时计算等挑战。
星环科技分布式向量数据库 Transwarp Hippo
星环科技分布式向量数据库 Transwarp Hippo 作为一款企业级云原生分布式向量数据库,基于分布式特性,可以对文档、图片、音视频等多源、海量数据转化后的多维向量进行统一存储和管理。它能够通过水平扩展架构,充分发挥并行检索能力,实现毫秒级高性能数据检索,结合相似度检索等技术,帮助用户快速挖掘数据价值。
与开源的向量数据库不同,星环科技分布式向量数据库 Transwarp Hippo 具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,很好地满足了企业针对海量向量数据的高实时性检索等场景。
采用第五代英特尔® 至强® 可扩展处理器提升 2 倍性能2
为了进一步提升性能表现,星环科技验证了基于第五代英特尔® 至强® 可扩展处理器的分布式向量数据库 Transwarp Hippo 的性能表现。
第五代英特尔® 至强® 可扩展处理器拥有更可靠的性能,更出色的能效。它在运行各种工作负载时均可实现显著的每瓦性能增益,在 AI、数据中心、网络和科学计算的性能和总体拥有成本 (TCO) 方面亦有更出色的表现。相较上一代产品,第五代英特尔® 至强® 可扩展处理器可在相同功耗范围内提供更高的算力和更快的内存。此外,它与上一代产品的软件和平台兼容, 因此部署新系统时可大大减少测试和验证工作。
- 21% 整体性能提升3
- 16% 内存速度提升4
- 2.7 倍三级缓存容量提升5
- 10 倍每瓦性能提升6
为了验证在升级为第五代英特尔® 至强® 可扩展处理器之后星环科技分布式向量数据库 Transwarp Hippo 的性能表现,星环科技在选用了 Transwarp KNN search 评测程序,该评测程序模拟用户的 top K 邻近范围查询。测试数据如图 3 所示,对比第三代英特尔® 至强® 可扩展处理器,基于第五代英特尔® 至强® 可扩展处理器的 Transwarp Hippo 性能是其 2.07 倍7。
收益
在搭配第五代英特尔® 至强® 可扩展处理器之后,星环科技分布式向量数据库 Transwarp Hippo 能够提供强大的性能基础,在大模型等场景创造巨大价值。
• 支撑数据的高效处理:基于第五代英特尔® 至强® 可扩展处理器的 Transwarp Hippo 能够实现海量、高维度向量数据处理,并具备低时延、高精确度等优势,可以满足大模型训练等场景对于数据处理能力的苛刻要求。
• 降低向量数据库的总体拥有成本 (TCO):由于第五代英特尔® 至强® 可扩展处理器实现了代际性能的大幅提升,有助于提升 Transwarp Hippo 服务器节点的性能密度,帮助用户节省在服务器采购、部署等方面的投资。同时,第五代英特尔® 至强® 可扩展处理器在性能提升的同时,具备更高的每瓦性能,有助于节省单位性能的能耗支出。
展望
基于第五代英特尔® 至强® 可扩展处理器的星环科技分布式向量数据库 Transwarp Hippo,提供了领先的性能表现,可以有效地解决大模型在知识时效性低、输入能力有限、准确度低等问题。通过将最新资料、专业知识、个人习惯等海量信息向量化存储在星环科技分布式向量数据库 Transwarp Hippo 中,企业可以有效拓展大模型的应用边界,让大模型保持信息实时性,并能够动态调整。
除了分布式向量数据库 Transwarp Hippo 之外,星环科技与英特尔正在面向更多的产品与场景,验证第五代英特尔® 至强® 可扩展处理器的性能表现,并通过软硬件协同调优等方式,加速处理器的性能释放,从而在加快海量数据处理的同时,帮助用户节省在基础设施方面的成本,提升投资回报率。
关于星环科技
星环科技致力于打造企业级大数据基础软件,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件与服务,构建明日数据世界。经过多年自主研发,星环科技建立了多个产品系列:一站式大数据基础平台 TDH、分布式分析型数据库 ArgoDB 及交易型数据库 KunDB、基于容器的智能数据云平台 TDC、大数据开发工具 TDS、智能分析工具 Sophon 和超融合大数据一体机 TxData Appliance 等,并拥有多项专利技术。
关于英特尔
英特尔 (NASDAQ: INTC) 作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。如需了解英特尔创新的更多信息,请访问英特尔中国新闻中心 newsroom.intel.cn 以及官方网站 intel.cn。