科技 > 人工智能 > 正文

清华系出手！全球第一款端侧全模态理解模型开源

智东西

下载客户端
独家抢先看

2024年12月16日 14:20:12 来自北京

编辑 | Panken

智东西12月16日报道，今日，清华系AI Infra创企无问芯穹正式开源端侧解决方案中的全模态理解小模型Megrez-3B-Omni，并同步开源其纯语言模型版本Megrez-3B-Instruct。

Megrez-3B-Omni为端侧而生，选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，单模态版本的推理速度最大领先同精度模型300%。

该模型同时具备图片、音频、文本三种模态数据的处理能力，并在三个模态的多种测评基准中取得了同尺寸下最优性能。

其多模态能力可灵活切换，响应非常迅速。比如先随手拍张单据照片发给它，问“6个人AA人均多少钱”，再语音输入让它写个诙谐文案催大家交钱，它能立即按要求出稿。

▲Megrez-3B-Omni可实现在语音、图像、文本多个模态之间自由切换

和同样三模态的VITA（based on Mixtral 8×7B）、Baichuan-Omni-7B ，双模态的MiniCPM-V 2.6（based on Qwen2-7B）、Qwen2-VL-7B、Qwen2-Audio-7B，以及单一模态的Qwen、Baichuan等模型相比，Megrez-3B-Omni在主流基准测试集上的表现都不逊色。

Megrez-3B-Instruct还提供了WebSearch功能，支持调用外部工具进行网页搜索。

无问芯穹成立于2023年5月，由清华大学电子工程系教授、系主任汪玉教授发起，汪玉的第一任博士毕业生夏立雪担任联合创始人兼CEO。其技术团队源起于清华大学电子工程系NICS-EFC实验室，在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验，擅长模型轻量化、软硬件协同优化。

该公司以“释放无穹算力，让AGI触手可及”为使命，致力于成为大模型时代首选的“算力运营商”。百度、智谱AI、联想、小米、软通高科等知名企业均是无问芯穹的投资方。

今年9月，无问芯穹CEO夏立雪、无问芯穹战略运营SVP王梦菲在与智东西等媒体交流时透露，该公司今年已有一些规模化收入，主要来自销售算力，明年会进一步扩大市场份额。其端侧大模型推理处理器LPU将以IP形式，与合作伙伴做联合的芯片发布，计划明年有一些落地尝试。经其内部测算，无问芯穹预计将在3到5年内实现盈利。

作为无问芯穹“端模型+端软件+端IP”端上智能一体化解决方案的重要构成，无问芯穹认为要实现端侧AGI，像Megrez-3B-Omni这样的全模态理解模型是必不可少的一环。

无问芯穹称Megrez-3B-Omni是一个能力预览，接下来将持续迭代Megrez系列，提升自动化水平至“edge device use”效果，让用户只需要给出简单的语音指令，就可完成端设备的设置或应用操作，并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场。

无问芯穹Github、HuggingFace主页以及Modelers魔乐、ModelScope魔搭等社区均可获取Megrez-3B-Omni及其大语言模型版本。无问芯穹Infini-AI异构云平台上可获取大语言模型版本的API或直接在线体验。

Github地址：

https://github.com/infinigence/Infini-Megrez

HuggingFace地址：

https://huggingface.co/Infinigence/Megrez-3B-Omni

Infini-AI异构云地址：

https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr

01 .

图片理解：3B体量对标34B模型表现，

轻松识别模糊印刷体、复杂手写字

在图像理解方面，Megrez-3B-Omni参数规模仅为3B，其综合性能表现却可以全面超过34B模型，包括LLaVA-NeXT-Yi-34B等模型，是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

▲图源：https://internvl.github.io/blog/2024-12-05-InternVL-2.5/

同时，Megrez-3B-Omni在场景理解、OCR等任务上也表现出色，能够准确洞察和分析图像中的场景内容，高效地从中提取文本信息。

比如发一张模糊截图，哪怕图片里的像素低清，该模型也能秒速识别。

▲Megrez-3B-Omni 屏幕识别

随手拍一张复杂的手写字照片，它也能快速提取里面的关键信息。

▲Megrez-3B-Omni手写字体识别

02 .

文本理解：超越上一代14B最佳模型，

读完课堂笔记秒出考题

在文本理解方面，作为全模态理解模型，Megrez-3B-Omni没有牺牲模型的文本处理能力，将上一代14B大模型的优秀能力压缩至3B规模，以更少的资源消耗，实现了更高的性能输出，显著降低了计算成本、提升了计算效率。

该模型在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上更是取得端上模型最优精度，在文本理解方面取得全球领先地位。这为端侧设备的智能化提供了全新可能。

在理解长文本时，该模型能做到准确意图识别和极速推理。

它可以适用于教育等很多文字工作应用场景。比如让它参考课堂笔记，出一套包含3个问题的课后习题。

▲Megrez-3B-Omni文本理解

或者让它帮忙给代码捉虫。

▲Megrez-3B-Omni代码理解

03 .

音频理解：输入语音轻松提问，

能听音、问图、解文

在语音理解方面，Megrez-3B-Omni的效果比肩行业主流方案，不仅支持中文和英文的语音输入，还能够处理复杂的多轮对话场景，更能支持对输入图片或文字的语音提问，实现不同模态间的自由切换。

用户可以就任意模态内容发出语音指令，Megrez-3B-Omni能根据语音指令直接响应文本，从一长段语音中快速提炼重点。

▲Megrez-3B-Omni语音理解

04 .

多场景灵活应用：支持网页搜索

Megrez-3B-Instruct还特别提供了WebSearch功能，使得模型能够智能地判断何时需要调用外部工具进行网页搜索，辅助回答用户的问题。

▲WebSearch支持

这样用户就能构建属于自己AI搜索，通过网络获取最新信息，克服小模型的幻觉问题和知识储备不足的局限。

模型有时候自身储备已经足够独立解决问题，这时过多的搜索调用反而可能降低推理速度和效果。Megrez-3B-Instruct通过在搜索和对话之间智能切换，避免了过度依赖搜索或完全不调用搜索的问题。

除了可以自动决策工具调用时机之外，Megrez-3B-Instruct还具备上下文理解性能优异、可提供带参考信息的结构化输出等优势。

这些能力都已集成于Megrez-3B-Instruct模型中，用户可通过System Prompt自由切换。

05 .

结语：一体化设计，推动端侧智能

相较于云端大模型，端侧模型需要在资源有限的设备上快速部署、高效运行，对降低模型计算和存储需求提出更高要求。

模型小，不一定就意味着速度快。

在将推理速度大幅提升背后，凭借对硬件特性的深入理解与利用，Megrez-3B-Omni通过软硬件协同优化策略，确保了各参数与主流硬件高度适配，以实现硬件性能的利用最大化。

此前在提供端上智能一体化解决方案方面，无问芯穹秉持软硬协同理念已与多家知名智能设备和终端芯片厂商展开合作。

除端侧全模态理解模型外，该公司有端上推理软件和IP设计方案，不仅支持CPU、GPU、NPU的同时推理，还能通过跨越软硬件层次的系统优化，额外带来最高可达70%的性能提升，最大化端侧硬件性能的利用，适应电脑、平板、手机乃至眼镜等轻量的端侧移动设备。

通过软硬件联合优化，在端上智能一体化解决方案内，无问芯穹还将推出与之相适配的端侧推理软件与LPU IP等，通过“端模型+端软件+端IP”一体化设计，为端侧设备提供更完整、对硬件利用更高效的智能方案，促进大模型在端侧设备上实现更高推理速度与更低能耗。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

清华系出手！全球第一款端侧全模态理解模型开源

亲爱的凤凰网用户:

第三方浏览器推荐: