微比恩 > 信息聚合 > 摆脱Transformer依赖？这家AI初创公司推出国内首个非Attention机制大模型

摆脱Transformer依赖？这家AI初创公司推出国内首个非Attention机制大模型

2024-01-26 19:53:11来源: 36氪

文 | 苏建勋Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构，凭借强大的自然语言理解能力，Transformer在问世的短短几年内便取代了传统的RNN网络结构，成为自然语言处理领域的主流模型架构。如今，一家创业公司试图动摇Transformer的“江山”。1月24日，上海岩芯数智人工智能科技有限公司（下称“岩芯数智”），正式发布了国内首个非Attention机制的通用自然语言大模型——Yan模型。作为行业内少有的非Transformer大模型，Yan模型用全新自研的“Yan架构”代替Transformer架构，用百亿级参数达成千亿参数大模型的性能效果——记忆能力提升3倍、速度提升7倍的同时，实现推理吞吐量的5倍提升。至于为何另辟蹊径，寻求非Transformer的大模型路径，岩芯数智CEO刘凡平指出，以大规模著称的Transformer，在实际应用中的高算力和高成本，让不少中

阅读原文