背景
火山引擎边缘云是以云原生技术为基础底座,融合异构算力和边缘网络,构建在边缘大规模基础设施之上的云计算服务,形成以边缘位置的计算、网络、存储、安全和智能为核心能力的新一代分布式云计算解决方案。
火山引擎四层负载均衡作为边缘云的重要基础产品之一,主要在抖音集团基础网络架构中处理来自用户的四层协议 (TCP/UDP) 访问请求,由负载均衡集群中的服务器根据调度算法转发给后端业务服务器,完成对用户业务请求的处理。
目前火山引擎四层负载均衡已被广泛部署于国内及海外的数据中心,用于支撑抖音、今日头条和西瓜视频等国民级 APP 的网络流量,满足数亿用户的日常使用以及抖音集团自有业务的网络接入需求。
挑战
抖音集团整体业务体量的迅速增长,使得业务对基础设施性能的要求越来越高,尤其是对高并发、大吞吐、低时延的网络性能需求。因此,火山引擎四层负载均衡面临以下性能挑战:
- 转发性能瓶颈:四层负载均衡单节点转发 PPS 性能亟待提升。除需要提升在高并发场景下的单 CPU 核转发 PPS 性能之外,还需要进一步提升性能可扩展性,保持转发性能随 CPU 核数增加而线性增长。
- 大象流承载能力需要提升:大象流在当前主流四层负载均衡软硬件架构下,仅能由单个 CPU 核处理,因此在单 CPU 核性能受限的情况下很容易出现网络丢包问题。尽可能提升单 CPU 核转发性能可以在一定程度上缓解因大象流导致的业务体验下降的问题。
- 转发时延抖动需要降低:实时交互类应用对网络时延一致性有极高的要求,因此四层负载均衡需要在流量转发时尽可能降低转发时延,并确保时延的一致性和降低时延抖动。
技术选型与性能验证
为攻克上述挑战,火山引擎边缘云团队须优化既有的四层负载均衡方案,并在进行技术选型时一致认为:四层负载均衡方案在满足当前对性能的需求之外,还应为未来发展留下进一步提升的空间。具体指:
- 满足当前性能优化需求:方案本身需具备更出色的性能,以满足当前 PPS 转发性能等业务需求,且在软件架构方面可以和既有方案深度融合。
- 适应异构计算发展趋势:可以通过持续引入异构加速器方案解决实际业务痛点(例如大象流及网络微突发丢包问题),从而满足业务越来越高的网络需求。
- 稳定的发展路线图:针对下一代硬件技术的发展:例如新 CPU 指令集、内存池化、下一代网络通信加速技术等,可以依照硬件发展路线图持续引入,充分享受硬件技术发展红利。
在对多种技术进行了深入了解和评估以及与英特尔工程师充分沟通后,火山引擎边缘云决定选用基于英特尔® 软硬件打造的四层负载均衡方案——高密度可拓展负载均衡器 (HDSLB),并联合英特尔在抖音集团的实际业务场景中,按照表 1 所示的测试环境对 HDSLB 的零丢包转发和 TCP 新建性能进行了测试和评估。
测试网络拓扑如图 1 所示。
根据图 2 和图 3 所示的测试结果,可以看出:在 64 字节小包零丢包转发性能方面,HDSLB 的单核转发性能高达 8 Mpps, 且多核 CPU 转发性能满足线性拓展特性1;在 TCP 流新建性能方面,HDSLB 的单核性能为 88 万 CPS,且多核 CPU 的 TCP 流新建性能也满足线性拓展特性。
图 2. HDSLB 64 字节小包零丢包转发性能测试结果1
图 3. HDSLB TCP 流新建性能测试结果2
总结与规划
火山引擎边缘云与英特尔基于 HDSLB 的四层负载均衡深度优化合作取得了令人满意的成果。一方面,HDSLB 本身转发性能优异,而在高并发实际场景中的应用不仅有效提升了转发质量和转发性能,还降低了转发成本;另一方面,HDSLB 方案的引入提升了边缘云支撑业务的网络承载能力,为应对新业务挑战做好了准备。同时本次合作也证明了基于第三代英特尔® 至强® 可扩展处理器的硬件平台在网络应用方面的优势,可为四层负载均衡等应对巨大网络压力的应用负载提供坚实支撑。
未来,火山引擎边缘云还将与英特尔在大象流处理和流量限速等实际业务场景中继续展开交流与合作,共同探索新的业务发展潜力和产品价值,破解更多阻碍业务发展的技术瓶颈。