微比恩 > 信息聚合 > 大模型 GPT-4 预测长这样:比 GPT-3 略大、纯文本、更注重最优计算与对齐

大模型 GPT-4 预测长这样:比 GPT-3 略大、纯文本、更注重最优计算与对齐

2022-04-22 09:44:17来源: IT之家

不久前,谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型 ——PaLM,具备标记因果关系、上下文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。但同时,大家也一如既往地注意到 PaLM 的计算成本:用了 6144 块 TPU。如果租显卡训练,最高花费可能达到 1700 万美元(人民币超过 1 个亿,“一个小目标”)。显然,这很烧钱,不符合“经济可用”的原则。难怪业内人士常常吐槽:苦大模型久矣。如果模型往大走,一个劲地砸钱,何时是个尽头?有学者也向 AI 科技评论表示:类似 PaLM 这样的大模型在结果上确实取得了不错的突破,但训练与计算的成本非常高,没必要将许多任务拼在一起。对于大模型的未来发展,GPT 系列或许能提供一些新的见解。近日,Cambrian AI 的分析师 Alberto Romero 便发表了一篇文章,基于 OpenAI 首席执行官 Sam

关注公众号