图片来源@视觉中国文 | 光锥智能,作者 | 郝鑫,编辑 | 刘雨琦4000到40万token,大模型正在以“肉眼可见”的速度越变越“长”。长文本能力似乎成为象征着大模型厂商出手的又一新“标配”。国外,OpenAI经过三次升级,GPT-3.5上下文输入长度从4千增长至1.6万token,GPT-4从8千增长至3.2万token(token:模型输入和输出的基本单位);OpenAI最强竞争对手Anthropic一次性将上下文长度打到了10万token;LongLLaMA将上下文的长度扩展到25.6万token,甚至更多。国内,光锥智能获悉,大模型初创公司月之暗面发布智能助手产品Kimi Chat可支持输入20万汉字,按OpenAI的计算标准约为40万token;港中文贾佳亚团队联合MIT发布的新技术LongLoRA,可将7B模型的文本长度拓展到10万
卷完参数后,大模型公司又盯上了“长文本”?
2023-10-12 18:40:42来源: 钛媒体
关注公众号
赞
你的鼓励是对作者的最大支持
- 腾讯混元文生图大模型对外开源:搭载首个中英双语 DiT 架构,免费商用2024-05-14 17:01:24
- 对话李开复:中美大模型差距越来越小,我10年不“套现”|钛媒体AGI2024-05-13 18:41:00
- 软通动力受邀参加"昇思AI框架及大模型技术论坛" 共探AI框架未来发展2024-05-13 15:38:00
- 首期EPAI"元脑企智"企业大模型开发平台实践集训成功举行2024-05-13 16:45:00
- vivo 自研蓝心大模型升级“自研 AI 多模态大模型”2024-05-13 19:17:08
- 华为政企部领导莅临开普云交流AI大模型一体机2024-05-12 11:34:28
- 金融大模型,要听见远方的风2024-05-11 12:35:10
- 为大模型专门优化 浪潮信息发布分布式全闪存储AS13000G7-N系列2024-05-10 15:21:00
- 阿里云发布通义千问2.5,中文性能全面赶超GPT-4 Turbo,千问110B成为全球最强开源大模型2024-05-09 23:09:43
- 阿里云发布通义千问2.5,赶超GPT-4,千问110B成为全球最强开源大模型2024-05-09 23:09:43