IT之家 3 月 28 日消息,根据 LMSYS Org 公布的最新基准测试报告,Claude-3 得分以微弱优势超越 GPT-4,成为该平台“最佳”大语言模型。IT之家首先介绍下 LMSYS Org,该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena,这是一个针对大型语言模型(LLM) 的基准平台,以众包方式匿名、随机对抗测评大模型产品,其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生,系统每次会随机选择两个不同的大模型机器人和用户聊天,并让用户在匿名的情况下选择哪款大模型产品的表现更好一些,整体而言相对公正。Chatbot Arena 自去年上线以来,GPT-4 一直稳居头把交椅,甚至成为了评估大模型的黄金标准。不过昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱
和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异
2024-03-28 13:51:54来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 理想汽车 Mind GPT 大模型通过国家备案,训练数据规模达 3 万亿 Token2024-03-28 13:22:25
- 宝华韦健推出 700 S3 系列签名版音箱,3300 美元起2024-03-28 13:26:06
- 硬件检测工具 HWiNFO 8.00 版本发布:64 位版本不再支持 WinXP / Vista 系统2024-03-28 13:33:30
- 八达通安卓 App 即将推出,华硕、小米、索尼、荣耀等手机均可使用2024-03-28 13:38:10
- 海尔智家 2023 年全球营业收入 2614.28 亿元,同比增长 7.3%2024-03-28 13:42:48
- 一加 Nord CE 4 手机曝光:搭载高通骁龙 7 Gen3,4 月 1 日发布2024-03-28 13:49:14
- 小米米家 10 公斤智投洗衣机上架:超薄全嵌设计,首发 1799 元2024-03-28 13:56:50
- 小米澎湃 HyperOS 智能助理出行助手内测:负一屏顶部展示用户火车、飞机票信息2024-03-28 13:59:40
- 特斯拉拟打造“私有 5G”服务:确保延迟更低、网速更快,为电动汽车及人形机器人提供支持2024-03-28 14:01:09
- 散户大战华尔街事件热度消褪,GameStop 难掩颓势:裁员挣扎求生2024-03-28 14:05:56
- 1Canalys:2024 年一季度华为重夺中国大陆智能手机市场第一
- 2特斯拉回击投资者对马斯克薪酬方案的反对意见
- 3创力集团等成立煤机智能装备公司 注册资本6000万
- 4依托于“天通一号”,比亚迪与中国电信联合推出汽车直连卫星业务
- 5安踏0碳使命店开幕;VICUTU威可多30周年品牌升级首倡“正装全场景”;太平鸟品牌VI升级;方里官宣梅耶·马斯克|消…
- 6全新电动 MINI COOPER 开启预售:3 款车型,21 万-27 万元
- 7魅蓝 OpenBlus 2 开放式蓝牙耳机发布:外观采用贝形设计,169 元
- 8北京:对采购自主可控GPU芯片开展智能算力服务的企业,按照投资额的一定比例给予支持
- 9KKR领投物业管理软件平台Guesty、生活方式品牌SIDANDA获近亿元融资、格力旗下洛阳机器人公司拟注销
- 10奇瑞捷途山海 T5 亮相:非承载式车身 SUV / 综合续航 1400km,预计明年上市