算力就这么点，为了提升语言模型性能，谷歌想了个新点子-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2022/12/e4433cca-75bf-4128-bf2a-3338ef519dd9.jpg?x-bce-process=image/format,f_auto

语言模型越来越厉害，也越来越大。如何在不扩大规模的情况下提升模型性能？谷歌 AI 想出了一个「强强联合」的好点子。近年来，语言模型（LM）在自然语言处理（NLP）研究中变得更加突出，在实践中也越来越有影响力。一般来说，扩大模型的规模已被证明可以提升在一系列 NLP 任务中的性能。不过，扩大模型规模的挑战也是显而易见的：训练新的、更大的模型需要大量的计算资源。此外，新的模型往往是从头开始训练的，无法利用以前的模型的训练权重。对于这个问题，谷歌的研究人员探讨了两种互补的方法，在不额外消耗大量计算资源的情况下，大幅提高现有语言模型的性能。首先，在「Transcending Scaling Laws with 0.1% Extra Compute」一文中，研究人员介绍了 UL2R，这是一个轻量级的第二阶段预训练模型，使用一个混合 enoisers 目标。UL2R 提高了一系列任务的性能，甚至在以前具有接近随机性能的任务上释放出突发性能