用心打造
VPS知识分享网站

阿里巴巴三大新系统亮相:ZooRoute、Hermes、Nezha全面提升云网络稳定性

阿里巴巴表示,其新的底层软件通过将工作负载转移到未充分利用的基础设施,减少了网络中断,降低了负载平衡成本,并提升了SmartNIC的性能。据《The Register》报道,该公司计划在下周的SIGCOMM会议上发表三篇研究论文,概述了其研究成果。

阿里巴巴三大新系统亮相:ZooRoute、Hermes、Nezha全面提升云网络稳定性

其中一篇论文介绍了一个名为 ZooRoute 的系统,旨在在发生故障时保持云网络正常运行。阿里巴巴的研究人员将其描述为“一种快速故障恢复服务,可在几秒钟内确保大规模云网络中的全局旁路。”

网络故障是云运营商生活中不可避免的现实,因此提供商的响应速度至关重要。该公司表示,目前诸如快速重路由或流量工程等方法的计算时间以秒或分钟为单位。对于最终用户来说,这仍然可能意味着中断或会话丢失。因此,一些租户开发了自己的备份方法,通常是通过购买冗余资源或更改其应用程序与网络交互的方式。这两种选择都会增加成本和复杂性。

ZooRoute 试图通过不断探测网络以寻找替代路径来解决这个问题。如果某个链路中断,系统已经知道哪条路径可用,并可以立即重定向流量。论文指出,阿里云已在生产环境中使用 ZooRoute 18 个月,在此期间,整体中断时间减少了 92% 以上。

使用 Hermes 实现更顺畅的负载平衡

另一项研究工作重点关注 Hermes,这是一个旨在解决第七层负载均衡器效率低下的系统。这些设备是现代云网络的核心,负责将数百万个请求分发给可用的服务器和工作进程。传统方法使用 epoll 等 Linux 工具将连接从内核传递到用户空间工作进程。虽然这种方法可靠,但可能会造成瓶颈,导致一些工作进程过载,而其他工作进程则处于空闲状态。

在阿里云网络中,Hermes 引入了一个基于 eBPF 的新调度层,eBPF 是一项允许任务在内核中运行的 Linux 技术。通过在请求到达工作进程之前对其进行过滤,Hermes 可以确定哪些流量需要优先处理,并使其分布更均匀。在测试中,这种方法将 CPU 使用率不平衡问题减少了约 90%,并将不均匀连接数问题降低了 99% 以上。

对于运营商而言,成效显著。工作“挂起”(进程卡住并需要干预)减少了近 100%。同时,运行第 7 层负载均衡基础设施的成本也下降了近 19%。这些改进意味着租户可以获得更稳定的性能,并降低服务提供商的运营成本。

更智能的 SmartNIC 与 Nezha

第三篇论文介绍了 Nezha,这是一个用于平衡智能网卡 (SmartNIC) 工作负载的分布式系统。配备自带处理器的网卡在大型云环境中被广泛使用。它们承担网络和存储功能,从而释放处理器周期。

在阿里云的运营中,一些智能网卡过载,而另一些则未得到充分利用。Nezha 通过监控使用情况并将任务从繁忙的智能网卡迁移到具有空闲容量的智能网卡来解决这个问题。

研究人员写道,部署 Nezha 的成本仅为添加新硬件的一小部分。他们还报告称,Nezha 通过消除运行在 SmartNIC 上的虚拟交换机的瓶颈,并将其推入更易于管理的虚拟机内核堆栈,从而提升了性能。

阿里巴巴的云研究对供应商意味着什么

综合起来,这三个系统展现了阿里巴巴等大型供应商如何努力从现有基础设施中榨取更高的效率和可靠性。中断和瓶颈会直接影响客户信心,并造成不必要的硬件支出。

该公司的研究强调了基于软件的技术对于管理复杂云网络日益增长的重要性。

赞(0)
未经允许不得转载;国外VPS测评网 » 阿里巴巴三大新系统亮相:ZooRoute、Hermes、Nezha全面提升云网络稳定性
分享到