PayPal 利用 Aerospike® 和英特尔® 傲腾™ 持久内存应对欺诈挑战

  • 通过采用搭载至强® CPU 和傲腾™ 持久内存的 Aerospike NoSQL 数据库系统,PayPal 在维持所需性能的前提下,降低了 TCO 并实现了:每节点存储空间扩大为原来的 4 倍、服务器数量减少约 50%、重建索引时间缩短为原来的 1/12、漏查的欺诈交易量降低至约为原来的 1/30、服务器占用空间约为原来的 1/8、硬件成本约为原来的 1/3、吞吐量约为原来的 5 倍。

利用第二代英特尔® 至强® 可扩展处理器部署 PB 级算力,不必大笔投资,亦可实现实时决策
 

执行概要

PayPal (www.paypal.com) 是一个全球主流的大型在线转账、计费和支付系统,旗下品牌有 PayPal、Venmo、iZettle、Xoom、Braintree 和 Paydiant。PayPal 平台积极利用技术提高金融和商业服务的便捷性、经济性和安全性,使全球 200 多个市场超过 3.25 亿消费者和商家能够参与全球经济并实现蓬勃发展。但是,与其他银行服务一样,PayPal 也面临欺诈挑战。采用全新英特尔® 技术和 Aerospike 的实时数据平台后,PayPal 将服务级别协议 (SLA) 的遵守率从 98.5% 提升到 99.95%,漏查的欺诈交易量降到约为原来的 1/30。同时,与先前的基础设施相比,计算硬件占用空间约为原来的 1/8(从 1,024 减少到 120 台服务器),而评估的数据量提升高达 10 倍1
 

挑战

PayPal 上的欺诈交易占营收的 0.17% 到 0.18%2。虽然远低于 1.86% 的行业平均水平2,但仍给公司造成每年超 10 亿美元的损失。

为了实时识别新出现的欺诈模式,PayPal 需要更快地处理和分析更多数据。为此,PayPal 希望快速构建一个高效的实时决策平台,同时尽量减少最终用户体验上的不便。该平台将大数据与实时处理相结合,涵盖的业务和数据包括客户注册、支付、开票习惯和客户资料等。

然而,处理数据量的扩展带来了诸多挑战,包括大规模主索引、数百 PB 的海量数据,以及需要将在线事务处理 (OLTP) 的速度翻倍,从每秒 350 万提高到 700 万。PayPal 发现,平台收集的海量数据已经几乎要拖垮其现有的数据库,传统数据库已经无法在无损表现的前提下交付满意成果。PayPal 亟需一种高成本效益的 IT 策略,使其基础设施能实现横向扩展,同时确保不影响性能和运行时间。2015 年,他们选择了 Aerospike 及其 NoSQL 数据库系统。
 

解决方案

PayPal 的基础设施支持着超过 4,000 个数据库实例、100 PB 的数据以及每年 32% 的数据存储增量。然而,随着其反欺诈决策平台数据量的逐年增长,主索引的规模也在不断扩大。一旦节点中的内存容量耗尽,即使存储容量仍然可用,也无法再存储新数据了。横向扩展额外的节点将耗费巨额成本,包括前期硬件成本、节点管理人员的成本以及增加的功耗。为了减少数据库节点的数量,PayPal 不断寻求提高单位节点密度的方式。

Aerospike 的数据库采用其获得专利的混合内存架构 (Hybrid Memory Architecture™, HMA) 设计,提供了一种与传统数据库完全不同的方式。Aerospike 不依赖 DRAM,而是利用闪存(固态盘)和持久内存的硬件优势来提供面向高达 PB 级数据的稳定性能。采用 Aerospike 使 PayPal 能够利用更高的存储密度和更快的固态盘实现扩展,而只有主索引存储在内存中,以实现高速数据访问。

2019 年,PayPal 开始考虑采用新一代内存和存储,来提高其使用 Aerospike 方案时的整体存储密度并降低 DRAM 成本。英特尔® 傲腾™ 持久内存(英特尔® 傲腾™ PMem)推出时,Aerospike 就对其软件进行了优化,以利用这一全新的持久内存模组。英特尔® 傲腾™ 持久内存能够以经济的价格提供大容量,同时具备非易失性。而第二代英特尔® 至强® 可扩展处理器正是为了充分利用服务器中的英特尔® 傲腾™ 持久内存而设计的。

Aerospike 的 HMA 目前支持将主索引存储在英特尔® 傲腾™ 持久内存,而非 DRAM 中。由于英特尔® 傲腾™ 持久内存模组有 128、256 和 512 GB 三种规格,且每 GB 成本低于 DRAM,因此能够帮助 PayPal 显著提高每节点的内存容量。主索引有了更多空间,PayPal 就能提升节点密度,构建规模更小的集群,从而大幅减少横向扩展的需求,同时确保 PayPal 所需的高性能。

数据持久性是 PayPal 将主索引存储在英特尔® 傲腾™ 持久内存中能够获得的另一项优势。主索引存在 DRAM,系统重启时需要从存储中扫描数据以重建索引,但如果把主索引存在持久内存,整个系统就可以在很短的时间内恢复并重新联机。服务器重启的加速满足了 PayPal 对较长运行时间和更高可靠性的要求。

近期,英特尔和 Aerospike 之间多年的合作还成就了一系列更深层次的优化,包括在英特尔® 傲腾™ 持久内存中存储数据(不仅仅是索引)。
 

结果

PayPal 现有共计 2,000 台 Aerospike 服务器,其中包括 200 台搭载第二代英特尔® 至强® 可扩展处理器和英特尔® 傲腾™ 持久内存的高密度服务器。PayPal 预计还将面临持续的数据增长。通过利用这些新技术扩展基础设施,PayPal 减少了 DRAM 的使用,从而降低了总体拥有成本 (TCO),同时保持了应用的极速响应和低时延。该优化带来的额外优势包括:
 

  • 每节点的存储空间约为原来的 4 (从 3.2 TB 到 12 TB)1
  • 服务器数量减少约 50%1
  • 每集群的成本降低约 30%1
  • 重建索引时间缩短约为原来的 1/121

以 PayPal 在 2015 年初步预计的 50 TB 欺诈数据量和其过去的内存系统为基准,Aerospike HMA、英特尔® 处理器和英特尔® 傲腾™ 持久内存帮助 PayPal 实现了以下性能增益:
 

  • 通过将服务级别协议遵守率从 98.5% 提升到 99.95%,漏查的欺诈交易量约为原来的 1/30
  • 服务器占用空间约为原来的 1/8:从 1,024 台减少到 120 台服务器
  • 成本约为原来的 1/3:预计硬件成本节省 900 万美元,从 1,250 万美元降至 350 万美元
  • 吞吐量约为原来的 5 倍:每秒事务处理量从 20 万提高到 100 万

考虑到 PayPal 预测的年数据增长率约为 32%,Aerospike 和英特尔® 傲腾™ 持久内存将全力支持 PayPal 的反欺诈解决方案进行经济高效的扩展。PayPal 仍可继续保持 99.95% 的欺诈计算服务级别协议遵守率,实现更短的节点重启时间、更强的查询性能和数据一致性,并保持全天候的高可用性(99.99% 的运行时间)。

欺诈预防是 PayPal 投资的一个重要领域。数十年来,PayPal 一直在使用其具备强大欺诈预防模型的实时决策系统。但欺诈者也在不断改变其欺诈模式并发掘新方式来利用该系统。因此,PayPal 必须不断设法提高欺诈检测的准确性并缩短欺诈检测时间。PayPal 将继续与 Aerospike 和英特尔合作,共同探索改进检测、阻止欺诈以及提高决策信心的方式。
 

关于 Aerospike®

Aerospike 实时数据平台使企业和机构能在数十亿的庞大事务规模中立即采取行动,同时可将服务器占用空间减少多达 80%。面对 TB 乃至 PB 级分布全球的海量数据,Aerospike 多云平台均可支持实时应用实现亚毫秒级的稳定性能,运行时间高达 99.999%,且可提供出色的数据一致性。基于 Aerospike 实时数据平台构建的应用能高效打击欺诈行为,提供可显著提高交易量的推荐建议,支持全球数字化支付,并为数千万客户提供超个性化的用户体验。Airtel、Experian、Nielsen、PayPal、Snap、Verizon Media 和 Wayfair 等客户纷纷将 Aerospike 作为未来的数据基础。Aerospike 总部位于加州山景城,在伦敦、班加罗尔和特拉维夫也设有办公室。