微比恩 > 文章栏目 > 文章正文

OpenAI 携手英伟达等 5 大巨头发布 MRC 协议,重塑大规模 AI 训练网络架构

IT之家2026-05-07 11:28:20
分享链接二维码
OpenAI 携手英伟达等 5 大巨头发布 MRC 协议,重塑大规模 AI 训练网络架构图片地址:https://img.ithome.com/newsuploadfiles/2026/5/2a7788ea-6a8a-4e65-9701-69fc0b294b84.jpg?x-bce-process=image/format,f_auto
IT之家 5 月 7 日消息,OpenAI 昨日(5 月 6 日)发布公告,为解决大规模 AI 训练中的网络延迟和故障问题,已携手 AMD、博通、英特尔、微软和英伟达公司,联合推出多路径可靠连接(MRC)协议,并通过 OCP(开放计算项目)向全行业开放该协议。IT之家援引博文介绍,MRC 全称为 Multipath Reliable Connection,基于 RoCE 标准扩展,结合 SRv6 技术,通过开放计算项目(OCP)向全行业开源,致力于提升超级计算机网络的性能与韧性。大规模训练 AI 模型面临严峻的网络挑战,单一数据传输延迟可能导致整个进程中断,致使 GPU(图形处理器)闲置。网络拥塞、链路及设备故障是主要诱因,且集群规模越大,问题发生频率越高。针对传统网络架构扩展性不足的问题,MRC 采用多平面网络设计。通过将单一 800Gb/s 接口拆分为多个较小链路,系统仅需两层交换机即可连接约 13.1 万块 GPU。相比传  阅读原文