阿里云HPN：揭秘AI大模型训练背后的高速网络架构！

本文提出了一种非堆叠双ToR网络架构，用于提升大规模AI训练集群的可靠性和性能。通过将网卡双端口连接至独立ToR交换机并实现状态同步，解决了单ToR设计易受故障影响的问题。同时采用单芯片交换机、多轨组网和双平面设计，有效消除哈希偏极化，使15000卡集群实现400Gbps接入能力。实际测试显示，该架构使大模型训练性能提升14.9%，跨Segment流量减少37%。此外，文中还介绍了配套的AI大模型

乔代码嘚

1427人浏览 · 2025-08-19 09:28:11

乔代码嘚 · 2025-08-19 09:28:11 发布

在传统数据中心网络中，每个网卡的两个端口通过一根连接到 ToR 交换机的电缆/光纤进行汇聚，称为单 ToR 设计（目前大多数云提供商广泛使用）。然而，单ToR设计非常容易受到交换机/链路故障的影响，严重影响LLM训练。

非堆叠双ToR设计将每个网卡的两个端口以主-备方式连接到不同的ToR。这两个端口配置相同的IP和媒体接入控制（MAC）地址。如果一个ToR（或一个端口）宕机，另一个仍可继续工作。此外，由于同一网卡中的两个端口共享相同的队列对（QP）上下文，流量切换不会导致活动流的中断，并对上层应用透明。

然而，这样的设计引入了一个新的挑战：如何在没有直接连接的情况下同步两个不同的ToR的状态？应对这个挑战并不容易。在已有的堆叠双ToR方案中，由于两个ToR通过一个链接直接连接，它们可以通过直接链接协商一个共享的sysID。这使得主机可以通过链路聚合控制协议（LACP）与叠加式双 ToR 交换机进行通信。然而，因为我们想要消除ToR之间的直接链接，使它们相互独立，这意味着它们不能再使用 LACP 进行协商。因此，我们需要设计一种新的技术，通过一种隐式方法来“伪装”两个ToR，使主机可以通过LACP与双ToR进行通信。

构建非堆叠双 ToR 并不容易，因为我们必须确保在 LACP 协商过程中，双 ToR 交换机使用相同的 MAC 地址和不同的portID。我们与交换机供应商深度合作，实现了定制的LACP 模块，以实现这一目标。

主机能够通过将每个ARP 消息复制到 NIC 上的两个端口的方法来同时更新两个 ToR 上的 ARP 信息。到目前为止，所有主流的主机和交换机都能支持该非堆叠双ToR方案。

一、构建容纳千卡规模的一层网络

如图所示，我们在高性能网络（HPN）中使用了最新的51.2 Tbit/s以太网单芯片交换机。在Tier1 （一个Segment）中，每个交换机具有128个可用加8个备用的200 Gbit/s下行端口和60个上行的400 Gbit/s端口。这种设计确保了接近1:1的超额预订（实际上是1.067:1）。每个ToR交换机保留8个备用下行端口。我们使用这些端口连接备用主机，可以在主机端故障时快速更换主机。

1）单芯片交换机。ToR交换机的带宽容量直接决定了同一Tier1网络中GPU的数量。业界已经有支持更高带宽容量的多芯片框式交换机[6]。然而，阿里云在操作数据中心网络方面的长期经验表明，和单芯片交换机相比，多芯片框式交换机引入了更多的稳定性风险。具体来说，我们线上实际运营的单芯片交换机数量是多芯片交换机的32.6倍。相反，多芯片交换机遇到的关键硬件故障总数比单芯片交换机高3.77倍。根本原因在于多芯片交换机是一个分布式的交换系统。内部结构、芯片间相互作用、芯片与CPU 的通信故障都会导致整体关键故障。因此，我们决定对所有新设计的网络架构都采用单芯片交换机。

2）多轨组网。主机内的8个GPU通过高带宽的主机内网络进行连接。虽然不同类型的GPU的主机内网络带宽不同，但是它比 NIC 提供的 2×200 Gbit/s 带宽高出 4～9 倍。NVIDIA 是第一个提出多轨组网设计的，此种网络设计已经广泛应用于训练集群中。在多轨组网中，同一铁路中的NIC通过同一套非堆叠交换机进行连接。不同轨道的NIC可以通过主机内+主机间转发的组合进行通信。例如，在图中，如果服务器1中的GPU1想要与服务器3中的GPU2进行通信，转发路径为：服务器1的GPU1→服务器1的GPU2→ToR3→服务器3的GPU2。

二、构建容纳万卡规模的二层网络

在 Tier1 网络中使用双 ToR，在 ToR 和聚合交换机之间简单部署典型的Clos拓扑结构，仍会存在哈希偏极化。在下行方向，双ToR设计导致存在2个可达下一跳，这引起了从60个聚合交换机到2个ToR交换机的高度收敛的流量。图（a）展示了双ToR设置中两个下行端口的出口流量，流向同一网卡。我们对在生产环境中运行的GPT-3 175B的实际训练作业期间进行了测量。这两个端口的负载显著不同（吞吐量的差别高达3倍）会降低训练性能。

为了避免负载极端不均问题，我们需要在一个Pod中消除哈希偏极化。如图（b）所示，在双平面设计中，每个双ToR设置中的ToR交换机被分为两个独立的组。有了这个设计，一旦一个流进入 ToR 中的任何一个上行链路，其在Pod内的转发路径就完全确定了。因此，在Pod中，哈希偏极化被完全消除了。部署双平面设计后，不同端口的输入流量变得更加均匀，而在ToR下行端口的队列长度减少了91.8%。实际测试表明，双平面设计为跨段流量贡献了高达71.6%的性能优化。通过对512个GPU同时运行4个AllReduce 作业的测试，这种优化的路径选择可以将集体通信性能提升34.7%。

由于双平面设计，当搜索不相交路径时，我们只需搜索每个ToR交换机中的链路（即最多搜索60条链路），这样大大减少了时间消耗。HPN能够减少1或2个数量级的计算复杂性。

更重要的是，当发生故障时，主机只需要从ToR交换机那里获得新的等价多路径（ECMP）组，并重新计算不相交路径（而不是在全局控制器中维护来自不同层的ECMP组）。

双平面设计带来了另一个重要的好处：在ToR和聚合之间减少了一半的链路连接。这使得聚合交换机可以支持同一Pod中更多的Segment。因此，Tier2网络的规模翻了一番。另外，我们设置了聚合-核心的收敛比为15:1，并额外增加了聚合交换机上87.5%的端口，用于容纳更多的Segment。最终，我们实现了将15 000卡放置在同一Pod中，并为每个GPU提供了400 Gbit/s的网络接入能力。

三、HPN性能评价

我们通过阿里云自主研发的大模型在集群上的训练效果来充分展示HPN所带来的性能提升。这个模型的训练采用了2 300多个GPU（超过288台服务器）。

该大模型最初是在数据通信网络（DCN+）上进行训练，然后迁移到HPN上。在DCN+中，训练任务使用了19个Segment，而在 HPN 中，训练任务只需要3个Segment。我们观察到，迁移后性能会显著提升。图显示，端到端训练性能提高了14.9%以上。这种端到端的性能提升在实际生产环境中具有很大的价值。考虑到整个训练集群的构建可能会花费数十亿美元，14.9%的性能提升则可带来显著的成本节省。聚合交换机承载跨 Segment 流量，其统计数据直接反映网络状态。根据图8显示，跨Segment流量平均减少了37%。较少的跨Segment流量使得网络中的拥塞大幅下降。图9展示了聚合交换机下行链路队列长度分布。在DCN+中，大流量和哈希冲突不断积累队列长度；而在HPN中，该问题在很大程度上得到了解决。

四、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以点扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述
如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

OpenLayers大数据可视化终极指南：10个性能优化技巧提升交互体验

OpenLayers作为一款功能强大的开源地图库，在处理大规模地理数据可视化时，性能优化是提升用户体验的关键。本文将分享10个实用的性能优化技巧，帮助开发者在使用OpenLayers构建大数据地图应用时，实现流畅的交互体验和高效的数据渲染。## 1. 合理使用WebGL渲染器提升大数据渲染速度 🚀WebGL渲染器是处理大规模地理数据的理想选择，它利用GPU加速图形渲染，能够显著提升数据量

魔乐社区

终极指南：如何用ffmpeg-python实现惊艳的视频合成效果

ffmpeg-python是一个强大的Python绑定库，为FFmpeg提供了简洁易用的接口，特别擅长处理复杂的视频过滤和合成任务。无论是简单的视频翻转还是复杂的多轨道合成，ffmpeg-python都能让你轻松实现专业级的视频效果。## 为什么选择ffmpeg-python进行视频合成？FFmpeg是视频处理领域的瑞士军刀，但命令行接口复杂且难以维护。ffmpeg-python将这种复杂