微比恩 > 信息聚合 > 浪潮信息刘军:如何用更少GPU更快地完成2457亿参数巨量模型训练?

浪潮信息刘军:如何用更少GPU更快地完成2457亿参数巨量模型训练?

2022-01-05 16:03:00来源: 美通社

北京2022年1月5日 /美通社/ -- 近年来,BERT、GPT-3等大规模预训练模型取得了巨大成功,引领语言模型进入巨量时代,算力、数据、参数规模快速朝着极致化的方向发展,也为模型训练和部署带来巨大挑战。在近日举行的2021 NeurIPS MeetUp China上,浪潮信息副总裁、AI&HPC产品线总经理刘军基于2457亿参数的“源1.0”中文语言模型,分享了浪潮人工智能研究院在巨量模型训练与计算性能提升方面的领先实践。 谈及巨量模型训练,刘军表示:“训练工作中最复杂也最具挑战的技术点在于如何行之有效地完成数千万级参数的模型训练”。当前,GPU显存最高为数十GB左右,而训练‘源’这样训练数据集达5TB、参数量达2457亿的大模型需要的GPU显存高达几TB,显然无法在单个显卡或一台GPU服务器上完成。因此,巨量模型训练工作,需要在模型算法、分布式训练、大规模集群计算等各个层面进行协同设计、优化,才能保证模型训练过

关注公众号
标签: GPU