科技 > 人工智能 > 正文

阿里通义千问推出QVQ-Max视觉推理模型：有“眼力”，更有“脑力”

凤凰网科技

下载客户端
独家抢先看

2025年03月28日 21:27:57 来自北京市

凤凰网科技讯（作者/彭坤苹）3月28日，阿里通义千问团队发文宣布，正式推出QVQ-Max视觉推理模型第一版。该团队表示，去年12月发布的探索模型QVQ-72B-Preview存在一些不足，而新版本的模型具备强大的多模态处理能力，它不仅能够“看懂”图片和视频里的内容，还能结合这些信息进行分析、推理，甚至给出解决方案。

从数学题到生活小问题，从编程代码到艺术创作，QVQ-Max都表现出了不俗的能力。

MathVision榜单测评图图源：通义千问官方公众号

在权威的MathVision榜单测评中，通过对模型thinking最大长度的调整，其在解决复杂数学问题的准确率上呈现出持续上升的趋势，充分彰显了该模型蕴含的巨大潜力。

据悉QVQ-Max的核心能力，主要体现在三个关键维度：

细致观察：QVQ-Max对图片的解析能力非常强，无论是复杂的图表还是日常生活中随手拍的照片，它都能快速识别出关键元素。比如，它可以告诉你一张照片里有哪些物品、有什么文字标识，甚至还能指出一些你可能忽略的小细节

深入推理：仅仅识别出图片里的内容还不够，QVQ-Max 还能进一步分析这些信息，并结合背景知识得出结论。例如，在一道几何题中，它可以根据题目附带的图形推导出答案；在一段视频里，它能根据画面内容推测出接下来可能发生的情节。

灵活应用：除了分析和推理，QVQ-Max 还能做一些有趣的事情，比如帮你设计插画、生成短视频脚本，甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿，它可能会帮你完善成一幅完整的作品；上传一个日常照片，它可以化身犀利的评论家。

阿里通义千问推出QVQ-Max视觉推理模型：有“眼力”，更有“脑力”

亲爱的凤凰网用户:

第三方浏览器推荐: