文 | 苏建勋Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,凭借强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,成为自然语言处理领域的主流模型架构。如今,一家创业公司试图动摇Transformer的“江山”。1月24日,上海岩芯数智人工智能科技有限公司(下称“岩芯数智”),正式发布了国内首个非Attention机制的通用自然语言大模型——Yan模型。作为行业内少有的非Transformer大模型,Yan模型用全新自研的“Yan架构”代替Transformer架构,用百亿级参数达成千亿参数大模型的性能效果——记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。 至于为何另辟蹊径,寻求非Transformer的大模型路径,岩芯数智CEO刘凡平指出,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
2024-01-26 19:53:11来源: 36氪
关注公众号
赞
你的鼓励是对作者的最大支持
- Mark Gurman 确认苹果将在英国、加拿大、新加坡等市场推出 Vision Pro2024-05-18 16:59:58
- 微软《极限竞速:地平线 5》迎来 Retrowave 季节赛:现代 N Vision 74 等五款新车2024-05-18 17:49:06
- 何小鹏确认 520 AI Day 发布会将带来全新 OTA,有望支持端到端大模型2024-05-18 20:43:17
- 消息称 OPPO Reno 12 实况照片功能媲美苹果 iPhone,即将官宣2024-05-18 22:45:30
- 京东 618 苹果 iPhone 15 Pro 到手价 6099 元起,限量现货2024-05-19 07:18:15
- AI制药,起跑落后2024-05-18 09:39:27
- OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮2024-05-18 14:18:39
- OpenAI超级对齐团队解散2024-05-18 09:30:33
- 苹果公司据悉计划2025年推出一款更薄的iPhone,定价可能高于Pro Max2024-05-18 10:35:10
- 未来已来,16位大咖共话AI时代 | 最前线2024-05-17 20:16:30