端侧大模型爆发前夜清华系开源全球首个端侧全模态模型

作者：IT时报发布时间：2024-12-17

端侧大模型爆发前夜清华系开源全球首个端侧全模态模型

IT时报

2024-12-17 13:26发布于上海IT时报官方账号

全文2019字，阅读约需6分钟，帮我划重点

划重点

01无问芯穹宣布开源全球首个端侧全模态理解开源模型Megrez-3B-Omni，适用于手机、平板等设备。

02Megrez-3B-Omni具备图片、音频、文本三种模态数据的处理能力，推理速度最大领先同精度模型300%。

03除此之外，Megrez-3B-Omni在图像理解、场景理解、OCR等任务上表现优秀，识别准确率较高。

04同时，Megrez-3B-Instruct提供WebSearch功能，实现智能判断是否需要调用外部工具进行网页搜索。

05无问芯穹将继续迭代Megrez系列，提升端侧智能一体化解决方案的性能，推动端侧智能更快爆发。

以上内容由腾讯混元大模型生成，仅供参考

IT时报记者孙妍

2024年是端侧大模型的元年，AI PC、AI手机等产品已经炒得热火朝天，用户仍在等待一款杀手级应用，国产手机厂商在观望苹果的AI手机开发进度，AI业界正在等待一款可用、好用的端侧大模型来解开体验、能耗、存储的“不可能三角”。

12月16日，无问芯穹宣布开源其“端模型+端软件+端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni，并同步开源纯语言版本模型Megrez-3B-Instruct。

小巧全能最适合手机的黄金尺寸

Megrez-3B-Omni选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，推理速度最大领先同精度模型300%。

作为一个全模态模型，Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力，并拒绝牺牲任何模态的精度，在图片、文本、音频三个模态中均取得了同尺寸下最优性能。

无论是和同样三模态的VITA ( based on Mixtral 8×7B) 、Baichuan-Omni-7B ，还是双模态的MiniCPM-V 2.6 ( based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B，又或是单一模态的通义千问Qwen、百川Baichuan 等模型相比，Megrez-3B-Omni 在主流基准测试集上的表现都毫不逊色。

在图像理解方面，Megrez-3B-Omni 作为一个体积仅为3B的模型，其综合性能表现可以全面超过34B的庞然大物，超越LLaVA-NeXT-Yi-34B 等模型，是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

与此同时，Megrez-3B-Omni 在场景理解、OCR 等任务上也具有良好表现，能够准确洞察和分析图像中的场景内容，并高效地从中提取文本信息，无论是模糊的印刷体还是复杂的手写字，识别准确率都较高。

在文本理解方面，作为全模态理解模型，Megrez-3B-Omni 没有牺牲模型的文本处理能力，将上一代14B大模型的优秀能力压缩至3B规模，显著降低了计算成本、提升了计算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上取得端上模型最优精度，在文本理解方面取得全球领先地位。

在语音理解方面，Megrez-3B-Omni 的效果比肩行业主流方案。Megrez-3B-Omni不仅支持中文和英文的语音输入，还能够处理复杂的多轮对话场景，更能支持对输入图片或文字的语音提问，实现不同模态间的自由切换。用户就任意模态内容，发出语音指令，Megrez-3B-Omni 就能根据语音指令直接响应文本，让用户实现以音问图、以音解文、以音听音，可以通过更少动作与模型展开更直观、自然的交互。

最大推理速度领先同精度模型300%

模型的规模并不是决定其速度的唯一因素，因此模型小并不一定就意味着速度快。Megrez-3B-Omni 通过软硬件协同优化策略，确保了各参数与主流硬件高度适配，以实现硬件性能的利用最大化。与上一代及其他端侧大语言模型相比，单模态版本的Megrez-3B-Instruct 在推理速度上取得了显著提升，最大推理速度可以领先同精度模型300%。

Megrez-3B-Instruct特别提供了WebSearch 功能，这一功能使得模型能够智能地判断何时需要调用外部工具进行网页搜索，辅助回答用户的问题。用户得以构建属于自己的AI搜索，通过网络获取最新信息，克服小模型的幻觉问题和知识储备不足的局限。

有时，模型通过搜索网页可以更全面地完成回答，而其他时候，模型自身已具备足够的知识来独立解决问题，过多的搜索调用可能会降低推理速度和效果。Megrez-3B-Instruct 通过在搜索和对话之间智能切换，避免了过度依赖搜索或完全不调用搜索的问题。此外，Megrez-3B-Instruct 还具备上下文理解性能优异、可提供带参考信息的结构化输出等能力。目前，这些能力都已集成于Megrez-3B-Instruct 模型中，用户可以通过System Prompt自由切换，同时享受高精度模型推理能力与智能WebSearch 调用收益。

端上智能一体化解决方案

相较于云端大模型，端侧模型需要在资源有限的设备上快速部署、高效运行，对降低模型计算和存储需求提出更高要求。无问芯穹技术团队源起于清华大学电子工程系NICS-EFC实验室，在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验，除软硬件协同优化外，模型轻量化也是这个团队的强项。

无问芯穹表示，Megrez-3B-Omni是一个能力预览，接下来还将持续迭代Megrez系列，提升自动化水平至“edge device use”效果，让用户只需要给出简单的语音指令，就可完成端设备的设置或应用操作，并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场

在这个方案中，除端侧全模态理解模型外，还有端上推理软件和IP设计方案，不仅支持CPU、GPU和NPU 的同时推理，更能通过跨越软硬件层次的系统优化，额外带来最高可达70%的性能提升，最大化端侧硬件性能的利用。

通过“端模型+端软件+端IP”一体化设计，无问芯穹将为端侧设备提供更完整、对硬件利用更高效的智能方案，促进大模型在端侧设备上实现更高推理速度与更低能耗，推动端侧智能更快爆发。