IT之家 1 月 15 日消息,谷歌研究院日前使用自家 BIG-Bench 基准测试建立了一项“BIG-Bench Mistake”数据集,并利用相关数据集对市面上流行的语言模型“出错概率”及“纠错能力”进行了一系列评估研究。谷歌研究人员表示,由于过去没有能够评估大语言模型“出错概率”及“自我纠错能力”的数据集,因此他们创建了一项名为“BIG-Bench Mistake”的专用基准数据集用于评估测试。据悉,研究人员首先使用 PaLM 语言模型在自家 BIG-Bench 基准测试任务中运行了 5 项任务,之后将生成的“思维链(Chain-of-Thought)”轨迹修改加入“逻辑错误”部分,之后重新丢给模型判断思维链轨迹中哪些地方存在错误。为了提升数据集准确程度,谷歌研究人员反复进行上述过程,最终形成了一项内含“255 项逻辑错误”的“BIG-Bench Mistake”专用基准数据集。研究人员提到,由于“BI
可协助 AI 语言模型改善自我纠错能力,谷歌推出 BIG-Bench Mistake 数据集
2024-01-15 14:37:20来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 谷歌全面整合AI力量背后:DeepMind浮沉史2024-04-22 08:17:06
- 谷歌 Pixel 8a 手机价格曝光,相比 Pixel 7a 涨价约 18%2024-04-20 18:02:49
- 谷歌整合 Research 和 DeepMind 资源,全力发展 AI2024-04-20 08:38:59
- 谷歌 Pixel 8a 手机高清渲染图再曝光2024-04-20 09:54:04
- 谷歌 Pixel 9 Pro 真机图片曝光:Tensor G4 芯片 + 16GB 内存2024-04-20 10:14:54
- 谷歌确认安卓改用 libdav1d 编解码器,改善支持 AV1 视频2024-04-20 12:45:27
- 微软 OneDrive 正测试导入云文件功能,可导入谷歌 Drive、Dropbox 等云盘文件2024-04-19 20:26:28
- 谷歌正为 Android 15 开发新 API:可查看手机存储芯片剩余寿命和电池健康信息2024-04-19 16:19:29
- 无需语音唤醒词,谷歌 Pixel 平板测试 Look and Sign 功能:可用手势交互2024-04-18 14:21:11
- Polyhedra与谷歌云达成合作,向全球开发者开放Proof Cloud服务2024-04-17 16:10:00
- 1Canalys:2024 年一季度华为重夺中国大陆智能手机市场第一
- 2特斯拉回击投资者对马斯克薪酬方案的反对意见
- 3创力集团等成立煤机智能装备公司 注册资本6000万
- 4依托于“天通一号”,比亚迪与中国电信联合推出汽车直连卫星业务
- 5安踏0碳使命店开幕;VICUTU威可多30周年品牌升级首倡“正装全场景”;太平鸟品牌VI升级;方里官宣梅耶·马斯克|消…
- 6全新电动 MINI COOPER 开启预售:3 款车型,21 万-27 万元
- 7魅蓝 OpenBlus 2 开放式蓝牙耳机发布:外观采用贝形设计,169 元
- 8北京:对采购自主可控GPU芯片开展智能算力服务的企业,按照投资额的一定比例给予支持
- 9KKR领投物业管理软件平台Guesty、生活方式品牌SIDANDA获近亿元融资、格力旗下洛阳机器人公司拟注销
- 10奇瑞捷途山海 T5 亮相:非承载式车身 SUV / 综合续航 1400km,预计明年上市