一款名为 Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到 2B,消费级显卡可训练,GTX1080ti、8G 的老显卡轻松运行。想将一份文档图片转换成 Markdown 格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。现在只需一句话命令:无论中英文,图片中的大段文字都能分分钟提取出来:对一张图做对象检测,还是能给出具体坐标的那种:这项研究由来自旷视、国科大、华中大的研究人员共同提出。据介绍,Vary-toy 虽小,但却几乎涵盖了目前 LVLM(大型视觉语言模型)主流研究中的所有能力:文档 OCR 识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。现在,Vary-toy 代码和模型均已开源,并有在线 demo 可试玩。网友一边表示感兴趣,一边关注点在于旧・GTX1080,心情 belike:“缩小版
年轻人的第一个多模态大模型:1080Ti 轻松运行,已开源在线可玩
2024-01-27 18:39:06来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 网易胡志鹏:AI + 游戏云端算力供给紧张,端侧大模型成解决方案2024-05-07 18:26:48
- 【硬科技周报】第15周:人工智能大模型公司“面壁智能”宣布完成数亿元融资,比利时计算机视觉初创公司RoboVision获…2024-05-06 10:36:58
- 雷军回应“不应给年轻人太多建议”:每代人都有自己独特的想法2024-05-05 07:12:21
- 开源编程语言 R 曝光存在 8.8 分代码执行漏洞 CVE-2024-27322,可引发供应链攻击2024-05-04 14:37:16
- 足疗,年轻人的短效孟婆汤2024-05-03 10:30:00
- 疯狂吸金400亿,年轻人住不起经济型酒店2024-05-02 12:04:10
- 解密Kimi:大模型应用当红顶流是如何练成的?2024-05-01 14:30:00
- 最新中文大模型测评:百川智能 Baichuan 3 国内第一2024-04-30 19:43:20
- 足疗按摩:当代脆皮年轻人的精神乌托邦2024-04-30 11:47:41
- 小红书内测自研大模型“小地瓜”,社交和搜索是落地方向 | Long China 50独家2024-04-29 18:53:48
- 1全球平板电脑市场恢复增长,华为加速扩张、苹果保持领先 | 钛媒体焦点
- 2联合水务:股东拟减持公司不超3%股份
- 3人形机器人公司“加速进化”完成Pre-A轮融资
- 4主线科技完成数亿元融资,自动驾驶卡车物流年收入数亿元 | 36氪首发
- 5华为云 GaussDB 数据库基础版发布:旗舰性能、价格下降超 60%
- 6香橙派 OrangePi 5 Pro 4GB / 8GB 版本开售:RK3588S 八核 64 位处理器,499 元起
- 7锦江酒店(中国区)成立度假公寓事业部、哈工智灵完成天使轮融资、前理想汽车总裁创立智能住宅品牌 "栖息地 " 获 6.53…
- 8大名城:拟出资8800万元参设福建省大数据智算投资有限公司
- 9氪星晚报|拼多多获国内多地快递驿站经营许可证;英国自动驾驶企业Wayve获75亿元融资;央行连续第18个月增持黄金储备
- 10锦江成立度假公寓事业部、哈工智灵完成天使轮融资、前理想汽车总裁创立智能住宅品牌 "栖息地 " 获 6.53 亿元融资 |…