微比恩 > 信息聚合 > 华为改进 Transformer 架构：盘古-π 解决特征缺陷问题，同规模性能超 LLaMA

华为改进 Transformer 架构：盘古-π 解决特征缺陷问题，同规模性能超 LLaMA

2024-01-02 13:06:07来源: IT之家

华为改进 Transformer 架构：盘古-π 解决特征缺陷问题，同规模性能超 LLaMA

图片地址：https://img.ithome.com/newsuploadfiles/2024/1/c2fe7c8a-d53b-4e9c-9cb2-d479f92a7943.png?x-bce-process=image/format,f_auto

华为盘古系列，带来架构层面上新！华为诺亚方舟实验室等联合推出新型大语言模型架构：盘古-π。它通过增强非线性，在传统 Transformer 架构上做出改进，由此可以显著降低特征塌陷问题。带来的直接效果就是模型输出表达能力更强。在使用相同数据训练的情况下，盘古-π（7B）在多任务上超越 LLaMA 2 等同规模大模型，并能实现 10%的推理加速。在 1B 规模上可达 SOTA。同时还基于这一架构炼出了一个金融法律大模型“云山”。该工作由 AI 大牛陶大程领衔。具体如何实现？一起来看。利用非线性解决特征塌陷目前常见大模型基本都采用 Transformer 架构，比如 GPT、LLaMA 等。它的核心构成包括多头自注意力机制（MSA）和前馈网络（FFN）。MSA 的主要功能是计算输入序列中每个 token 和其他所有 token 之间的相关性，通过学习输入序列中的依赖关系，可以增强对语言的理解能力。FFN 主要对输入进行非线性转换，增

关注公众号

标签：华为

提示：支持键盘“← →”键翻页

上一篇量子漩涡的启示：科学家找到区分夸克和核子液体的“独特舞姿”

下一篇吉利豪越 PRO 多能 SUV 车型官图发布，预计 1 月上旬上市

赞

你的鼓励是对作者的最大支持

相关阅读

温暖的世界：华为影像XMAGE全球巡展正式开幕2024-05-09 09:00:00
科技昨夜今晨 0509：中国海军福建舰顺利完成首次航行试验、任天堂称新 Switch 并不是一个全新的平台、华为夏季全场…2024-05-09 08:20:30
2024 款华为 MateBook 14 笔记本开启预售：2.8K OLED 触控屏、支持 M-Pencil 手写笔2024-05-09 10:15:59
美国升级芯片出口限制，撤销英特尔、高通等企业对华为出口许可证｜硅基世界2024-05-08 21:54:22
2024 款华为 MateBook 14 笔记本海外发布：2.8K OLED 触控屏、支持 M-Pencil 手写笔2024-05-08 00:50:20
华为海外发布 MatePad 11.5 英寸 S 平板电脑：护眼柔光屏，399 欧元起2024-05-08 01:10:28
华为海外发布 FreeBuds 6i 真无线蓝牙耳机：智能动态 ANC 3.0，99 欧元2024-05-08 01:33:20
华为夏季全场景新品发布会官宣 5 月 15 日举行2024-05-08 09:03:10
华为海外发布 FreeClip 耳夹耳机新配色米黄2024-05-08 10:06:54
华为 MatePad Pro 13.2 平板新配色首发“天生会画”App2024-05-08 10:19:57

热门排行榜

1日1周1月

免费发布分类信息

最新图片