在腾讯企业内部,云环境也早已成为研发与运营的基础平台。TStack* 是腾讯云面向公司内部IT环境及相关合作伙伴提供的云计算平台,主要支持办公自动化(Office Automation,OA)系统运维人员、各产品和平台应用开发人员、测试及AI研究人员,承载着腾讯内部IT业务系统、职能部门业务及腾讯大部分产品线的开发测试任务。随着腾讯业务的不断扩展,其遍布全球的分支机构和数据中心,使数据连通、资源交付和调度面临严峻挑战。为解决这些问题,腾讯云通过专线/虚拟专用网络(VPN)等方案使TStack接入腾讯公有云,构建IT混合云计算环境,为全球范围内的腾讯员工及合作伙伴提供统一的云服务。作为云计算领域的技术先锋,英特尔与腾讯云开展了多项深入的技术合作,不仅以强大的处理器、存储和网络设备支持了腾讯IT混合云方案的开发和部署,更在众多领先的云计算技术与理念的基础上,携手腾讯云共促云服务市场的持续创新与演进。
面临挑战
● 巨无霸企业信息汇聚成本高昂:腾讯已成长为举足轻重的跨国巨头,遍及世界各地的分支机构让数据连通和共享变得困难且成本高昂,易造成信息孤岛现象,不利于数据资源的高效利用,与腾讯的大数据理念相背离。
● 业务发展需要更便捷的资源调度:腾讯众多“明星”产品在开发、测试和运营过程中,需要多区域数据中心的资源汇集,旧有的私有云模式在调度能力上遇到短板,无法对产品线的需求做出快速响应。
解决方案
● 腾讯IT混合云:腾讯云通过专线/VPN的方式将TStack私有云环境与腾讯公有云连通,提供IT混合云环境,为腾讯内部4万员工以及集团公司数十万用户提供了高品质的云服务,其可用率超过99.99%。
● 针对混合云的优化:为使公、私两种异构云之间的协作获得最佳效果,腾讯云在英特尔产品与技术的助力下,对其平台与产品进行了多项技术创新和优化,在节点支撑能力、迁移速度、消除可扩展虚拟局域网(Virtual Extensible LAN,VxLAN)性能瓶颈等多个方面实现了突破。
影响
● 优化内部资源调度能力:腾讯IT混合云对企业内部分散、异构的物理机和云资源实现了统一管理和调度,节省服务器成本达30%,降低运维管理成本达55%,每年为公司节省成本上亿元人民币。同时也优化了全球资源调度能力,将多个重量级系统的部署时间缩短数倍。
● 缩短产品研发迭代周期:新的IT混合云模式有助于优化腾讯产品的开发、测试环境,使资源交付周期从2周减少至30分钟,缩短了众多重量级产品的开发迭代周期,支撑起腾讯数百亿收入业务的开发团队。
腾讯今天已走出中国,发展成为横跨全球,为亿万用户提供稳定优质互联网增值服务的巨头。浓厚的互联网基因让腾讯敏锐地察觉到云计算蕴含的价值,并在早期就投入大量资源进行耕耘,成为中国云计算领域重要的拓荒者之一。经过一系列重量级产品的淬炼,今天的腾讯云,对外已成为举足轻重的云服务提供商,对内,也是支撑整个腾讯企业内部IT、OA、研发、测试和集成的基础平台。
随着腾讯业务的超高速增长,尤其是在海外市场不断地拓展版图,其原有的私有云方案也逐渐显露出众多短板,尤其是各地私有云环境连通困难,易形成信息孤岛,无法对宝贵的数据资源进行有效汇集和利用,同时众多的分支机构新建数据中心周期长,成本高,不符合互联网企业灵活敏捷的经营策略。
为解决这一问题,通过专线/VPN等方案,腾讯云将IT私有云环境TStack接入了腾讯公有云,构建了IT混合云计算环境,为全球范围的腾讯员工及合作伙伴提供了统一的混合云服务。同时为满足业务需要,腾讯云还与技术伙伴英特尔一起,推进了大量技术创新,实现了平台的优化。这一过程中,英特尔为其提供了全新的英特尔® 至强® 可扩展处理器、高性能英特尔® 固态盘,还利用英特尔® RDT、英特尔® ISA-L和DPDK等一系列领先产品与技术为其提供加速度,并保驾护航。
混合云,就是要做到“1+1>2”
腾讯云TStack是以OpenStack Kilo*版本为基础来构建其IaaS(Infrastructure as a Service,基础设施即服务),并在其上与腾讯云一系列PaaS(Platform as a Service,平台即服务)、SaaS(Software as a Service,软件即服务)乃至AIaaS(AI as a Service,人工智能即服务)相结合,形成的独具特色的私有云环境。但囿于传统数据中心、私有云环境所限,它在扩展性、交付能力、建设周期等方面仍有缺憾。
为此,腾讯云通过专线/VPN将TStack与腾讯公有云相连接,构建了IT混合云,既能充分利用公有云带来的高性能、高弹性优势,也可保持私有云具备的高可用,高可信能力,但这种组合是否能做到1+1>2?公有云与私有云组成混合云的模式,是否能为腾讯内外上百万用户带来更高质量的云服务?来自腾讯云的行业专家从异构虚拟化平台纳管,混合云平台性能,数据迁移能力以及安全性等几个方面给出了答案。
腾讯IT混合云要实现无缝连接,首先亟需解决的是对异构云的统一纳管。腾讯内部IT系统存在大量不同类型的物理机与虚拟机,例如有6000余台基于Xen* 的存量虚拟机,而最初版本的TStack云管理平台却并不支持异构虚拟化,因此如何将这些虚拟机无缝纳管到云平台显然是一个巨大的挑战。为应对这一问题,腾讯云开发了专有工具,可在服务完全无中断的情况下,实现对存量异构虚拟化平台的纳管,系统内的物理机、Xen虚拟机、KVM虚拟机及存储设备都可由TStack云管理平台进行统一管理和调度,从而极大提高了服务器利用率,并降低了总体拥有成本(Total cost of Ownership, TCO)。
在构建混合云的过程中,腾讯云的专家们发现原生OpenStack Kilo版本的一些特性在性能上无法满足IT混合云的使用需求。例如当每个Region的计算节点超过500个时,由于核心组件RabbitMQ* 内核配置所限,计算节点间的消息传递就会出现问题,进而造成一些关键服务出现性能瓶颈。基于这一状况,腾讯云通过对核心组件Nova* 、RabbitMQ等的参数和内核配置进行调优,使其单Region支撑的计算节点可超过1,000个,满足IT混合云的部署需求。同时,针对在大规模部署时,由于软件定义网络(Software Defined Network,SDN)兼容问题,造成混合云使用的VxLAN可能出现性能瓶颈的问题,腾讯云开发了多厂商SDN兼容技术,能够在单一系统内集成多个厂商的软硬件SDN解决方案,实现VxLAN加速,消除了这一瓶颈。
出于数据资源调度的需求,IT混合云中的虚拟机经常需要进行迁移,但当超大虚拟机进行迁移时,由于数据量大,在网络情况较差时就会出现虚拟机迁移超时的情况。针对这一问题,腾讯云植入了自适应压缩技术,这一技术可以根据当前网络的实时带宽来决定迁移数据的压缩比,在网络较差时自动增加数据压缩比,降低内存拷贝压力,从而将迁移时间缩短50%。
同时,为了保障数据的安全性,腾讯IT混合云在深圳、上海、天津、成都4个地区的7个数据中心部署了14个集群,并基于应用服务容灾考虑,采用多Region、两地三中心的部署架构来充分保障整个IT混合云系统的安全性。
更多创新,更强效能
在IT混合云的构建过程中,为向腾讯企业内外部用户提供更优质、高效的云计算环境,腾讯云还基于开源OpenStack平台,与技术伙伴英特尔一起,借助其先进的产品、技术与理念,推进了大量技术创新,提高了系统性能和可用性,实现了平台优化。
为保证IT混合云的所有租户都获得足够的服务质量(Quality of Service,Qos),腾讯云提供了实时限速功能来对资源进行合理调配,这一功能可在平台资源使用紧张的前提下,对大负载处理器进行限速,在资源宽松时再进行“解禁”,实时地对平台内处理器占用时间和进程进行精准控制,避免出现资源独占,从而保证各个租户在整体上都能获得一致的虚拟机QoS水平。
腾讯云的这一创新得到了英特尔® 资源调配技术 (Intel® Resource Director Technology, Intel® RDT)的支持,英特尔® RDT技术可帮助用户动态地释放系统性能,使虚拟机、容器等云服务组件对共享资源(例如处理器,LLC末级缓存)的控制和使用更为灵活,从而使工作负载整合密度、性能稳定性以及动态服务交付实现革命性飞跃,有助于提升整个系统的效率和灵活性。
为提高IT混合云虚拟机的可用性,腾讯云还为其设计了一种独有的虚拟机调度策略,这一策略能将虚拟机调度到不同宿主机,当单一宿主机出现故障时,其虚拟机承载的业务功能就会被来自其他宿主机的虚拟机迅速接管,从而避免业务中断。而腾讯云提供的另一种在线resize功能,可在不中断虚拟机运行的情况下,根据业务需求的变动,快速实现对虚拟机的调整。
在多项技术创新之外,腾讯云还引入英特尔诸多领先产品与技术来增强IT混合云的工作效能,例如最新一代的英特尔® 至强® 可扩展处理器,其高频、多核、多线程的优势可充分提升TStack各个组件的处理速度,其自带的计算、网络与存储协同处理功能,能在保证数据安全的同时提升效率。另外,英特尔® 至强® 可扩展处理器集成的英特尔® 高级矢量扩展512(英特尔® AVX-512)技术提供的增强型超宽512位矢量处理能力,可更好地满足TStack上部署的AIaaS类服务的应用需求。来自腾讯云的测试数据表明,部署英特尔® 至强® 可扩展处理器的腾讯云第三代云服务器CVM性能比上一代提高了28%。
为增强云环境下的数据处理能力,腾讯云还将英特尔® 智能存储加速库(英特尔® ISA-L),DPDK等技术融入IT混合云。DPDK作为一套快速处理数据包的函数库和驱动程序,可有效解决云环境中服务器数据面转发性能不足造成的系统瓶颈;而英特尔® ISA-L则能充分利用英特尔处理器的功能特性进行算法优化,例如在单内核上执行多运算单元并行处理来提高系统的并行化处理能力等,这些算法优化可以有效帮助腾讯IT混合云应对计算密集型应用带来的性能需求。
经过数年的打磨与锤炼,以及上述一系列技术创新,腾讯IT混合云目前已成为腾讯企业运营与产品研发的重要基础平台。目前,IT混合云规模已达12,000台虚拟机,并以超过99.99%的可用率服务于腾讯内外部用户及合作伙伴,以高品质的混合云计算环境应用体验收获了良好反馈。与此同时,腾讯云还正将TStack平台在腾讯内部获得的丰富经验推广到外部市场,并已在政务、交通等诸多领域取得良好效果。在未来,腾讯云还计划与英特尔一起,以更多领先技术与产品,来提升云计算平台服务能力,帮助用户进一步简化基础设施、降低运营成本、缩短交付过程,提升云服务利用效率。
经验:
对于高速发展的企业来说,利用公有云的高性能与高弹性可以解决其IT系统需要快速扩容的需求,同时私有云环境也能满足其在安全、可靠性方面的需求。因此,混合云正成为越来越多企业、政府机构在进行数据中心新建及改造时的选择。
英特尔® 至强® 可扩展处理器在计算性能,尤其是并行计算方面的优势,再搭配英特尔一系列领先技术,例如英特尔® RDT、英特尔® ISA-L和DPDK等,已在用户部署实践中被证明可有效提升混合云系统的工作效能。