微比恩 > 信息聚合 > 万卡时代不打群架,中国智算正过三关

万卡时代不打群架,中国智算正过三关

2024-05-08 19:25:46来源: 钛媒体

文 | 脑极体我前两天看到了一个挺震撼的视频,科学家们在NASA戈达德空间飞行中心的天体物理学家指导下,使用Discover超级计算机模拟了跳入黑洞的过程。画面视觉效果摄人心魄,而一组数据同样让我感到震撼:该视频生成10TB的数据,只用了5天,耗费了0.3%总算力。如果我们想用自己的笔记本电脑模拟这个场景,需要花费的时间是10年。“时间就是金钱,效率就是生命”,这句改开时代的口号,在大模型驱动的智算时代,仍旧不过时。算力作为生产力,所节约的不只是金钱,更重要的是时间。目前算力集群已经从千卡,迈入了万卡、五万卡集群。甚至有媒体预测,GPT6未来部署的时候,需要70万-80万张卡才能支撑。那问题来了,万卡集群在执行大规模训练任务时负载重,发生软硬件错误的概率,当然也就更高。万卡时代,一张卡、一台机器或一个链路的故障,都可能导致中断,拖慢进程。那么十万卡、百万卡等更大数量级的提升,未来如何应对?最近几个月,我们

关注公众号