华为盘古系列,带来架构层面上新!华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古-π。它通过增强非线性,在传统 Transformer 架构上做出改进,由此可以显著降低特征塌陷问题。带来的直接效果就是模型输出表达能力更强。在使用相同数据训练的情况下,盘古-π(7B)在多任务上超越 LLaMA 2 等同规模大模型,并能实现 10%的推理加速。在 1B 规模上可达 SOTA。同时还基于这一架构炼出了一个金融法律大模型“云山”。该工作由 AI 大牛陶大程领衔。具体如何实现?一起来看。利用非线性解决特征塌陷目前常见大模型基本都采用 Transformer 架构,比如 GPT、LLaMA 等。它的核心构成包括多头自注意力机制(MSA)和前馈网络(FFN)。MSA 的主要功能是计算输入序列中每个 token 和其他所有 token 之间的相关性,通过学习输入序列中的依赖关系,可以增强对语言的理解能力。FFN 主要对输入进行非线性转换,增
华为改进 Transformer 架构:盘古-π 解决特征缺陷问题,同规模性能超 LLaMA
2024-01-02 13:06:07来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 温暖的世界:华为影像XMAGE全球巡展正式开幕2024-05-09 09:00:00
- 科技昨夜今晨 0509:中国海军福建舰顺利完成首次航行试验、任天堂称新 Switch 并不是一个全新的平台、华为夏季全场…2024-05-09 08:20:30
- 2024 款华为 MateBook 14 笔记本开启预售:2.8K OLED 触控屏、支持 M-Pencil 手写笔2024-05-09 10:15:59
- 美国升级芯片出口限制,撤销英特尔、高通等企业对华为出口许可证|硅基世界2024-05-08 21:54:22
- 2024 款华为 MateBook 14 笔记本海外发布:2.8K OLED 触控屏、支持 M-Pencil 手写笔2024-05-08 00:50:20
- 华为海外发布 MatePad 11.5 英寸 S 平板电脑:护眼柔光屏,399 欧元起2024-05-08 01:10:28
- 华为海外发布 FreeBuds 6i 真无线蓝牙耳机:智能动态 ANC 3.0,99 欧元2024-05-08 01:33:20
- 华为夏季全场景新品发布会官宣 5 月 15 日举行2024-05-08 09:03:10
- 华为海外发布 FreeClip 耳夹耳机新配色米黄2024-05-08 10:06:54
- 华为 MatePad Pro 13.2 平板新配色首发“天生会画”App2024-05-08 10:19:57
- 1全球平板电脑市场恢复增长,华为加速扩张、苹果保持领先 | 钛媒体焦点
- 2妙鸭前负责人张月光新项目:连续完成三轮融资,估值过亿美金 | 36氪独家
- 3大名城:拟出资8800万元参设福建省大数据智算投资有限公司
- 4氪星晚报|拼多多获国内多地快递驿站经营许可证;英国自动驾驶企业Wayve获75亿元融资;央行连续第18个月增持黄金储备
- 5科技昨夜今晨 0508:特斯拉或启动新一轮裁员;淘宝网页版宣布完成重要升级;8999 元起,2024 款苹果 iPad …
- 6锦江成立度假公寓事业部、哈工智灵完成天使轮融资、前理想汽车总裁创立智能住宅品牌 "栖息地 " 获 6.53 亿元融资 |…
- 7“中腾微网”完成近亿元B轮融资
- 8“瑞初医药”完成上亿元Pre-A轮融资
- 9提供工业AI生成式设计软件,「设序科技」完成近亿元A+轮融资|融资首发
- 102024 款华为 MateBook 14 笔记本海外发布:2.8K OLED 触控屏、支持 M-Pencil 手写笔