阿里通义千问推出QVQ-Max视觉推理模型:有“眼力”,更有“脑力”
科技
科技 > 人工智能 > 正文
站内

阿里通义千问推出QVQ-Max视觉推理模型:有“眼力”,更有“脑力”

凤凰网科技讯 (作者/彭坤苹)3月28日,阿里通义千问团队发文宣布,正式推出QVQ-Max视觉推理模型第一版。该团队表示,去年12月发布的探索模型QVQ-72B-Preview存在一些不足,而新版本的模型具备强大的多模态处理能力,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。

从数学题到生活小问题,从编程代码到艺术创作,QVQ-Max都表现出了不俗的能力。

MathVision榜单测评图 图源:通义千问官方公众号

MathVision榜单测评图 图源:通义千问官方公众号

在权威的MathVision榜单测评中,通过对模型thinking最大长度的调整,其在解决复杂数学问题的准确率上呈现出持续上升的趋势,充分彰显了该模型蕴含的巨大潜力。

据悉QVQ-Max的核心能力,主要体现在三个关键维度:

细致观察:QVQ-Max对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素。比如,它可以告诉你一张照片里有哪些物品、有什么文字标识,甚至还能指出一些你可能忽略的小细节

深入推理:仅仅识别出图片里的内容还不够,QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。

灵活应用:除了分析和推理,QVQ-Max 还能做一些有趣的事情,比如帮你设计插画、生成短视频脚本,甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿,它可能会帮你完善成一幅完整的作品;上传一个日常照片,它可以化身犀利的评论家。

[责任编辑:彭坤苹 PT135]

(本文章版权归凤凰网所有,未经授权,不得转载)

推荐0

为您推荐

算法反馈
已显示全部内容

凤凰网科技官方微信

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载