阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
AI时代,大模型以前所未有的速度和广度重新塑造我们的数字世界。算法演进,数据挖掘和算力扩展,仍然是AI业务发展的三大飞轮。模型参数从数十亿增长到万亿级,推动互联网、自动驾驶、金融、医疗等领域的智能化发展。同时,预训练逐渐遇到数据墙,Scaling的边际效益开始递减,大模型正在从单纯追求模型规模扩展转向优化推理能力。长文本,MoE混合专家模型成为发展趋势。而随着OpenAI的o1/o3模型的发布,Self-play RL(自我对弈强化学习),CoT(Chain of Thought,思维链),Test-time Compute(推理时计算)等新范式逐渐涌现。大模型Scaling law仍在继续,并且在原有预训练基础上拓展到微调和推理。
对AI基础设施(AI Infra)来说,在大模型Scaling law的规模增长驱动下,性能和稳定性将面临更大的挑战。一方面头部基础大模型预训练所需要的算力依然在持续增长(从万卡到10万卡集群),同时推理正在成为算力增长的主要引擎,多机推理,集群化推理正在成为主流。随之带来的一个重要变化是训练和推理业务对于AI Infra的需求将会趋同,训推一体集群将会成为未来重要趋势。AI基础设施的核心工作将聚焦于统一平台上平衡训练与推理的性能、稳定性和成本,支撑大模型的可持续发展。
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络团队在迈向AI的可预期网络关键技术领域持续深耕,不断创新,在过去的2024年HPN7.0训推一体架构EPOD上线,自研高性能网络协议栈Solar取得创新突破,落地业界首个UEC-ready 400G高性能智算网卡,端网融合的新型智算集群监控和故障快速定位系统大幅度提升了集群有效算力时间,通信库ACCL+C4D产品化,全链路通信效率提升超过30%,为智算集群互联而构建的新型DCI网络架构eCore开始大规模部署。
HPN7.0是阿里云为AI智算而设计的新型数据中心网络架构,成为国际网络通信顶级会议SIGCOMM录取的首篇AI智算集群架构论文,HPN7.0在2024年大规模部署的基础上,进一步演进支持训推一体,PD分离推理架构,实现训练推理潮汐资源复用,HPN7.0训推一体EPOD架构开始大规模部署,对集团模型推理场景的通信性能提升100%。
自研高性能网络协议栈Solar创新突破,落地业界首个UEC-ready 400G高性能智算网卡,大幅度降低了网络拥塞,在拥塞场景下集合通信端到端性能提升18%
阿里云自研高性能网络协议Solar-RDMA采用混合虚拟化技术,高效支撑智算Serverless多租场景,Solar-RDMAv6技术充分发挥IPv6的地址空间和可编程能力,实现多租户隔离,简化了网络控制平面的实现,降低了流表复杂性,摆脱对特定硬件资源的依赖。Solar-RDMA是业界首个UEC定义的RDMA多路径技术在400G网卡规模部署落地,大幅度降低了网络拥塞,在拥塞场景下,集合通信端到端性能提升18%。在千卡规模对比测试中,整体性能优于行业内领先的商业网卡。
针对大模型训练过程中故障多定位难的痛点,阿里云基于大规模智算集群的运营经验沉淀,打磨出了一整套涵盖Infra层+集合通信层+框架层的监控和故障定位系统,将原来的数小时甚至天级的定位时间缩短至分钟级,大幅提高了大模型训练任务的有效算力,相关论文被国际网络系统领域顶级会议NSDI’25录取。
通信库ACCL+C4D产品化上线,帮助PAI灵骏提升故障定位效率,提升AI计算集群的资源效率。通过协同Scale-out和Scale-up网络进行通信算子优化,在GPU/PPU等多种硬件环境下,全链路通信效率提升超过30%;使用CopyEngine取代Streaming Processor进行Scale-up网络上的数据传输,降低通信算子对计算资源的消耗;结合MOE和推理拉远等新型业务特征,进行通信算子的定制优化,高效支持计算通信交叠。该成果被国际体系结构顶会HPCA 2025录取。
阿里云eCore架构是阿里云首创的基于单栈单片(IPv6/SRv6协议栈,单芯片白盒路由器),多平面设计,全网服务化的下一代广域网架构,旨在根本解决现有基于几十年传统骨干网技术所面临的稳定性和业务发展挑战。eCore是为了满足AGI时代算力普惠化,算力集群的大带宽高性能互联而设计的新型DCI网络系统,为阿里云智算网络长期竞争力奠定了基础。
阿里云基础设施网络团队在AI智算等网络技术领域持续创新,2024年在国际顶会SIGCOMM/NSDI/OSDI/HPCA/OFC上发表和录取论文接近20篇,涵盖智算集群网络架构、高性能网络协议栈、通信库、Serverless、故障诊断、高性能存储网络、光通信等技术领域,其中HPN7.0斩获网络顶会SIGCOMM首篇AI智算星空体育平台官网网络架构论文,通信库论文Crux获SIGCOMM最佳论文优胜奖。
网络研发团队共5篇论文入选国际网络通信领域顶会SIGCOMM 2024(会议总共录取论文60多篇),其中,介绍阿里云最新一代智算集群网络架构HPN7.0的成果论文,成为SIGCOMM历史上在AI智算集群网络架构领域的首篇论文,正在成为AI Infra行业新范式。另一篇介绍阿里云智算训练集合通信优化调度系统Crux的论文斩获SIGCOMM2024优胜论文奖(Honorable Mention),其中:
d. Relational Network Verification. Rela针对大规模网络难以通过形式化表达的难题,设计了针对网络变更的高级关系规范语言和对应的验证工具;可以实现在20分钟内完成对于超大规模网络80%变更的验证。
网络研发团队三篇论文入选NSDI 2024, 另外五篇论文被NSDI 2025录取,主题涵盖AI训练故障诊断体系、高精度大模型集群训练模拟器、RDMA容器网络扩展性优化、GPU解耦型推理服务以及CDN智能拥塞控制优化,展示阿里云在AI智算网络技术领域的强大创新能力,其中:
智算集群故障快速定位系统C4论文被体系结构顶级会议HPCA 2025录取
四篇论文被全球光通信领域顶会OFC2024录取论文主题包括开放解耦光网络(特邀)、光缆劣化对传输性能的余量影响、光网络不可用率分析以及基于神经网络的传输网性能分析。
阿里云基础设施网络团队在开源生态中持续引领技术创新与生态构建:牵头成立高通量以太网(ETH+)联盟并发布智算网络标准;入选国际超以太网联盟技术委员会,参与AI网络架构标准制定;担任互联网基础资源工作委员会副主任委员,引领行业创新。在SONiC社区发起“Phoenix Wing计划”,贡献SRv6优化代码;开源全栈AI集群仿真器SimAI与AICB基准测试,填补行业评估空白;推出UNP平台交换机硬件规范,加速硬件开发与生态构建,推动智算网络升级。
“开放包容、智算互联”,阿里云携同50余家会员单位,勇立智算潮头,构建高通量以太网(ETH+)生态
2024年由阿里云和中科院牵头成立的高通量以太网(ETH+)联盟首次对外公布联盟愿景及相关章程,并对外发布首个面向智算场景的网络标准:高通量以太网(ETH+)协议标准SPEC 1.0, 旨在构建覆盖Scale-Out和Scale-Up方向的一致性协议底座,并最终实现芯片化及生态构建。
5月,在国际超以太网联盟(UEC)近期举行的技术咨询委员会(TAC)选举中,阿里云成功入选,成为13名TAC成员中唯一的中国科技公司,也是唯二的一家非美国公司,将参与面向AI时代的开放网络系统及核心技术的方向决策和标准制定。
阿里云当选“互联网基础资源工作委员会” 副主任委员,引领和推动我国互联网资源生态的繁荣与发展
11月,为了推动互联网基础资源的创新和高质量发展,由国家工信部指导,中国互联网协会发起的”互联网基础资源工作委员会“ 正式成立,阿里云副总裁蒋江伟受邀当选副主任委员。阿里云常年来在IPv6规模部署和技术创新,DNS全链路规模化服务、网络安全稳定,产学研合作等多方面的工作成果,受到了行业客户和主管单位的广泛认可,作为平台企业代表共创生态技术创新。
SONiC社区技术委员会副主席、阿里云资深技术专家阮弋星在北京正式启动了针对SONiC社区的“Phoenix Wing计划”,旨在将阿里巴巴在DCI(数据中心互联)网络中采用的先进SRv6特性及关键性能优化代码贡献给社区,共同加速SRv6技术在SONiC生态系统中的创新与应用。
行业首个开源全栈高精度AI集群仿真器 — SimAI,受到业界广泛关注,打造 “互惠共利”、“开放包容” 的开源社区
SimAI是业界首个开源的全栈高精度AI集群仿线收录,当前Github总Star 430+()。10月 SimAI 全栈v1.0开源,支持10+功能场景,目前SimAI开源社区已汇聚超400位成员,吸引10+位技术专家加入维护者团队参与共建。
8月,提出业界首个人工智能通信基准测试程序集AICB(Artificial Intelligence Communication Benchmark),弥补了AI集群网络缺少客观、准确评价标准的问题。AICB 1.0涵盖了大语言模型训练场景下典型的工作负载(包括GPT、LLaMA、MoE等算法和Megatron、DeepSpeed等训练框架),用户不仅可以通过直接运行这些工作负载评估物理集群网络的性能,还可以灵活生成各种训练规模、训练参数、训练框架下的工作负载,从而量化分析其通信特征。
阿里云网络研发团队开源多年来广泛部署的白盒交换机硬件SPEC,向开源社区推出UNP(Universal Network Platform)平台,智算集群51.2T交换机 UNP平台大幅度加速新硬件/新厂商的开发和引入进度,极大丰富了行业生态加速网络多芯战略落地,增强供应安全和进一步降低网络成本。
2024年阿里云基础设施网络团队的专家活跃在各大网络行业会议,积极布道,持续引领AI网络全球合作与技术创新,包括SIGCOMM/APNET、OFC、OCP全球峰会、CCF高性能计算年会、CCF网络大会、CCF分布式计算大会、第四届网络开源技术生态大会、乌镇峰会下一代互联网论坛等。
2024年8月8日,在澳大利亚悉尼举办的国际网络通信领域顶会SIGCOMM落下帷幕,阿里云网络研发团队专家在会上演讲介绍五篇论文,其中一篇AI网络调度论文成果斩获SIGCOMM 2024优胜奖。同期APNet24 Workshop上,阿里云基础设施网络负责人蔡德忠受邀与微软、Meta专家在Industry Spotlight(工业界聚光灯)进行主题报告,介绍阿里巴巴HPN7.0,用新一代网络架构革新人工智能基础设施。
2024年3月24日-28日,全球规模最大、最具影响力的光通信顶会光纤通信学术研讨和产品技术展览会OFC(Optical Fiber Conference)在美国加州圣地亚哥举行。网络研发团队有多位专家参并分享阿里云在数据中心光网络等核心技术上的创新及对未来趋势的见解,内容涵盖400 Gb/s及以上光通信系统的设计,相干收发器,线性可插拔光学技术,高性能网络和光互联技术在AI的应用,以及开放解耦系统和数字孪生系统等领域。
2024年开放计算OCP全球峰会与10月14日-17日在美国加州圣何塞召开,阿里云资深技术专家阮弋星等多位专家在AI网络架构和数据中心网络技术创新领域受邀参与四场技术报告,主题分别为“高密度AI集群下的51.2Tbps交换机液冷/风冷方案”, “阿里巴巴大规模计算集群的网络稳定性挑战与实践”, “阿里巴巴HPN:面向大模型训练场景的数据中心网络”和“Phoenix Wing计划:推动SONiC SRv6的广域网部署”。
中国计算机学会(CCF)高性能计算专委学术年会于9月24-26日在中国(武汉)召开,阿里云基础设施网络负责人、高通量以太网联盟(ETH+ Consortium)主席蔡德忠做大会主论坛特邀报告,并与联盟共同主席孙凝晖院士、联盟技术委员会共同主席阿里云高性能网络负责人付斌章博士、联盟技术委员会共同主席中科院研究员王展博士,以及联盟核心代表一起共同对外发布首个面向智算场景的网络标准 - 高通量以太网(ETH+)协议标准(1.0), 旨在构建覆盖Scale-Out和Scale-Up方向的一致性协议底座,并最终实现芯片化及生态构建。阿里云HPN7.0荣获CCF HPC China技术创新奖。
中国计算机学会互联网专委与数据通信专委年会于11月8-10日在张家港召开,阿里云基础设施网络负责人蔡德忠受邀在大会主论坛做题为《规模x10驱动智算集群网络架构新一轮变革》的主旨报告。网络研究与创新工程团队负责人翟恩南,阿里云智算集群网络稳定性负责人张彭城,应用网络负责人秦超受邀在专题论坛做了多次技术报告。这些分享充分展示了阿里云在推动网络与人工智能深度融合方面的技术实力和行业领导力。
中国计算机学会分布式计算专委年会于7月26-28日在长春召开,阿里云基础设施网络负责人蔡德忠受邀在大会主论坛做题为 《面向AI大模型时代的新型智算网络》主旨报告。该报告介绍了阿里云高性能网络(HPN)的端网融合的架构设计如何解决AI大模型带来的技术挑战以及阿里云全栈自研的核心技术和创新。此外,网络研究与创新工程团队负责人翟恩南在“面向算力网的异构算力抽象体系” 和“云际计算时代的网络挑战与机遇” 两个专题中分别做报告。
2024年世界互联网大会领先科技奖在乌镇揭晓,阿里云面向AI的云计算基础设施(AI Infra)荣获该奖,成为世界互联网大会史上首个以AI基础设施整体获奖的科技成果,其中阿里云最新一代智算集群网络架构HPN 7.0是重要组成。
同期,在乌镇峰会“下一代互联网论坛”上,阿里云智能集团研发副总裁、基础设施网络研发负责人蔡德忠受邀参加受邀参与圆桌讨论,并就人工智能(AI)与下一代互联网的融合发展分享了前瞻性见解。
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
云服务运行安全创新标杆:阿里云飞天洛神云网络子系统“齐天”再次斩获奖项
阿里云“超大规模云计算网络一体化运行管理平台——齐天系统”凭借卓越的技术创新与实践成果,荣获“云服务运行安全创新成果奖”,同时,齐天团队负责人吕彪获评“全栈型”专家认证。
阿里云网络ACL是子网级无状态防火墙,支持精准流量控制、规则热生效且免费使用。本文详解5步配置流程,助您实现Web与数据库层的安全隔离,提升云上网络安全。
2025年9月24日-26日,杭州,一年一度的云栖大会如期而至;阿里云飞天洛神云网络作为阿里云计算的连接底座,是飞天云操作系统的核心组件,致力于为上云企业提供高可靠、高性能、高弹性、智能的连接服务。本次云栖,云网络产品线也带来全系列产品升级,以及创新技术重磅解读,围绕增强确定性、提效自动化、深耕智能化和敏捷全球化带来技术、产品和服务升级,以及全新的云网络产品生态合作计划发布。
阿里云CDN构建全球化智能加速网络,拥有2800多个边缘节点覆盖67个国家,实现毫秒级网络延迟。其三级节点拓扑结构与智能路由系统,结合流量预测模型,确保高命中率。全栈式加速技术包括QUIC协议优化和Brotli压缩算法,保障安全与性能。五层防御机制有效抵御攻击,行业解决方案涵盖视频、物联网及游戏等领域,支持新兴AR/VR与元宇宙需求,持续推动数字内容分发技术边界。
阿里云VPC创建时需选IPv4网段,默认提供10.0.0.0/16、172.16.0.0/16、192.168.0.0/16,三者无功能差异。若仅单VPC且不连本地数据中心,可任选其一,确保不冲突即可。多VPC或混合云场景需规划避免IP重叠。不支持100.64.0.0/10等特殊网段。建议结合IPAM进行地址管理。
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
阿里云洛神云网络论文入选SIGCOMM25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内星空体育平台官网运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
YOLOv5改进 主干网络 用EfficientNet卷积替换backbone【教程+代码 】
【计算机网络】数据链路层 : 广域网 ( HDLC 协议 HDLC 站 HDLC 帧格式 HDLC 帧类型 PPP 协议 与 HDLC 协议 对比 )
概率神经网络的分类预测--基于PNN的变压器故障诊断(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
Cisco IOS XRv 9000 Router IOS XR Release 7.11.2 MD - 思科 IOS XR 网络操作系统





