各家大模型纷纷卷起上下文窗口,Llama-1 时标配还是 2k,现在不超过 100k 的已经不好意思出门了。然鹅一项极限测试却发现,大部分人用法都不对,没发挥出 AI 应有的实力。AI 真的能从几十万字中准确找到关键事实吗?颜色越红代表 AI 犯的错越多。默认情况下,GPT-4-128k 和最新发布的 Claude2.1-200k 成绩都不太理想。但 Claude 团队了解情况后,给出超简单解决办法,增加一句话,直接把成绩从 27% 提升到 98%。只不过这句话不是加在用户提问上的,而是让 AI 在回复的开头先说:“Here is the most relevant sentence in the context:”(这就是上下文中最相关的句子:)让大模型大海捞针为了做这项测试,作者 Greg Kamradt 自掏腰包花费了至少 150 美元。好在测试 Claude2.1 时,Anthropic 伸出援手给他提供了免费额度,不然
一句话解锁 100k + 上下文大模型真实力,27 分涨到 98,GPT-4、Claude2.1 适用
2023-12-11 14:30:01来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里云发布通义千问2.5,中文性能全面赶超GPT-4 Turbo,千问110B成为全球最强开源大模型2024-05-09 23:09:43
- 阿里云发布通义千问2.5,赶超GPT-4,千问110B成为全球最强开源大模型2024-05-09 23:09:43
- 阿里云通义千问 2.5 大模型发布,号称“多项能力赶超 GPT-4”2024-05-09 11:18:49
- AI泡沫要破了?朱啸虎说大模型商业模式非常差,Sea创始人称企业转型AI较困难|钛媒体AGI2024-05-08 23:29:59
- 网易胡志鹏:AI + 游戏云端算力供给紧张,端侧大模型成解决方案2024-05-07 18:26:48
- 【硬科技周报】第15周:人工智能大模型公司“面壁智能”宣布完成数亿元融资,比利时计算机视觉初创公司RoboVision获…2024-05-06 10:36:58
- 解密Kimi:大模型应用当红顶流是如何练成的?2024-05-01 14:30:00
- 最新中文大模型测评:百川智能 Baichuan 3 国内第一2024-04-30 19:43:20
- 小红书内测自研大模型“小地瓜”,社交和搜索是落地方向 | Long China 50独家2024-04-29 18:53:48
- 氪星晚报|小红书内测自研大模型“小地瓜”;苹果iPad操作系统据悉受到欧盟数字市场法案约束;美的集团股份有限公司向港交所…2024-04-29 20:17:57