微比恩 > 信息聚合 > 摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型

摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型

2024-01-26 19:53:11来源: 36氪

文 | 苏建勋Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,凭借强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,成为自然语言处理领域的主流模型架构。如今,一家创业公司试图动摇Transformer的“江山”。1月24日,上海岩芯数智人工智能科技有限公司(下称“岩芯数智”),正式发布了国内首个非Attention机制的通用自然语言大模型——Yan模型。作为行业内少有的非Transformer大模型,Yan模型用全新自研的“Yan架构”代替Transformer架构,用百亿级参数达成千亿参数大模型的性能效果——记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。 至于为何另辟蹊径,寻求非Transformer的大模型路径,岩芯数智CEO刘凡平指出,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中

关注公众号
标签: on AI 大模型