能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

作者：机器之心Pro发布时间：2024-03-01

机器之心专栏

机器之心编辑部

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而，它们的能力缺乏细致且偏应用级的评测，可信度和因果推理能力的对比也尚存空白。

近日，上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学（深圳）等院校合作发布 308 页详细报告，对 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 等热门的 LLM 和 MLLM 进行评测。根据 4 种模态（文本、代码、图像及视频）和 3 种能力（泛化能力、安全可信能力和因果推理能力）形成了 12 个评分项，并通过 230 个生动案例，揭示了 14 个实证性的发现。

*作者顺序按照字母顺序排名

评测报告：https://arxiv.org/abs/2401.15071
榜单地址：https://openlamm.github.io/Leaderboards

后续会持续对最新多模态大语言模型及多模态生成大模型进行评测，如GeminiUltra，SORA 等，结果会更新到榜单地址，敬请期待！

结论速览

文本和代码能力：总体来说，GPT4>Gemini>Mixtral>Llama-2 等其他模型。值得一提的是多语种翻译的能力，谷歌的 Gemini 大放异彩，其能准确捕捉成语和复杂结构的微妙差异，甚至超越了 GPT-4，展示出信达雅的中文翻译能力。
领域知识：通过医学、经济学等学科知识测评发现，Gemini 的领域知识和 GPT-4 都非常丰富，但它在 “学以致用 " 的能力上稍显欠缺，而且偏科医学。GPT-4 则在解决各种专业领域问题方面都都略胜一筹。
安全与可信度：GPT-4 相比于 Gemini Pro，以及 Llama-2 等其他开源模型，展现出显著优势。在涉及道德敏感性问题和安全可信问题时非常谨慎，但可能由于其安全防护机制过强，导致部分正常问题也拒绝回答，这一点有待更多讨论。
视觉能力：通过对图像和视频两种模态的输入进行评测，发现开源模型甚至在部分维度上与闭源模型的视觉能力评分不相上下，没有明显的差距，视觉的细节感知均有待提高，视觉能力可能将成为多模态大模型能力竞争的焦点。
因果关系分析：文本、代码、图像和视频四种模态中，Gemini 语言表达非常简洁，GPT-4 在各模态输入时都能深入理解和解释复杂场景。对于视频输入，需要对时序有理解能力的因果推理问题上，特别是在处理多轮交互和理解事件序列因果关系方面，所有模型在都处于起步阶段。

图 1：通过四种模态对各 LLM/MLLM 在通用性、可信度和因果关系上的评测结果

实验性发现

1. 文本和代码总体能力概括：总体而言，Gemini 的性能远不如 GPT-4，但优于开源模型 Llama-2-70B-Chat 和 Mixtral-8x7B-Instruct-v0.1。对于开源模型而言，在文本和代码方面，Mixtral-8x7B-Instruct-v0.1 的表现优于 Llama-2-70B-Chat。（GPT4>Gemini>Mixtral>Llama-2）

图 2：创意写作，在这个评测样例中，让模型使用数学理论写一首情诗，GPT 非常有创意，π 代表无穷，指数曲线代表上升，常数代表始终如一，可见其融合多学科知识的能力非常不错。

图 3：语法结果。绿色文字表明合理的回答。红色文字表明不合理的回答。GPT-4 表现最好，而 Mixtral 在 7 个问题中有 2 个错误的答案，Gemini 表现最差。

2. 多语言翻译能力：在多语言翻译能力方面，Gemini 表现出色，甚至超越了 GPT-4 和最好的开源模型。Gemini 能够准确理解成语和英语句子的微妙差异以及复杂的结构，然后准确翻译它们，而 GPT-4 和开源模型通常只翻译字面意思。此外，Gemini 生成的中文翻译通常更加优雅。

图 4：多语言翻译结果。绿色文字表明更优秀的回答。红色文字表明明显错误的回答。在将中国成语翻译成英文时，这三个模型都存在很多问题，但 Gemini 的表现稍好一些。

3. 数学计算和推理能力：无论是多解数学问题、定理证明还是常识推理，Gemini 的表现通常较差，结果接近开源模型 Mixtral-8x7B-Instruct-v0.1 和 Llama-2-70B-Chat，而 GPT-4 一如既往的表现最好。Gemini 有时在引用定理和知识方面出现明显错误；即使使用正确的知识，它也经常因计算错误而失败。

图 5：方程推导结果。绿色文字表明合理的回答。红色文字表明错误的回答。GPT-4 表现最好，其次是 Gemini，Mixtral 作为开源模型和这两个闭源模型仍有差距。

4. 领域知识应用能力：Gemini 通常只具有某些领域知识的表面理解。无论是在医学、经济还是其他学科领域，Gemini 可以理解这些领域的专业术语和问题。然而，当将这些知识应用于解决具体问题时，它经常会犯错。相比之下，GPT-4 不仅具备专业知识，还知道如何应用它，通常能够较好解决专业领域的问题。至于图像输入，在医学专业领域（GPT-4 避免回答这一系列问题的领域），与开源 MLLMs 相比，Gemini Pro 在医学图像模态识别和内容理解方面表现出良好的能力，并在某些情况下提供有价值的诊断建议。然而，根据案例的评估结果，目前正在测试的 MLLMs 在提供有效的医学诊断和全面报告方面仍然面临重大挑战。

图 6：领域知识应用能力。绿色文字表示合理的回答。红色文字表示不合理的回答。GPT-4 表现最佳，而 Gemini 和 Mixtral 提供了相互矛盾的解释和错误的答案。

5. 文本和代码的可信度和安全性：与 GPT-4 甚至开源模型 Llama-2 相比，Gemini Pro 在这方面缺乏足够能力。Gemini Pro 难以熟练识别测试提示中的诱因和陷阱，如歧视、刻板印象和非法行为的实例。此外，研究者发现 Mixtral 的文本可信度能力不够稳健。有时它可以识别提示中的陷阱并给出安全的回应，但有时会失败。在极端风险方面，研究者关注潜在的化学威胁。Gemini Pro 对化学有很好的了解，可以准确地提供化合物的合成方法等。然而，它经常无法识别给定的化合物是危险的。相比之下，GPT-4 和 Llama-2 在这方面做得更好，会发出化合物是危险的警告。Mixtral 可能受到自己的化学知识的限制。虽然它也会回应，但不够详细。在代码的可信度方面，Llama-2 和 GPT-4 明显优于 Gemini Pro。Gemini Pro 具有强大的代码生成能力，但难以识别测试提示中的安全风险，如违反社会伦理、安全极端风险，甚至直接给出危险的答案。

图 7：绿色文字表示安全的回应。红色文字表示不安全的回应。蓝色文字表示我们对这个回应的简短评论。只有 Gemini Pro 给出了危险爆炸化合物的具体名称。

6. 文本输入时的推理能力：在文本因果关系场景中，研究者的分析揭示了不同模型响应的明显模式。具体而言，Gemini Pro 倾向于提供直接且符合规定的答案，特别是在问题明确要求简单的 “是或否” 回答或涉及从多个选择中进行选择时。Gemini Pro 的这一特点使其在更倾向于简洁回答的大规模评估中成为更实际的选择。相比之下，其他模型倾向于在回答中包含解释性细节。虽然这种方法可能对批量处理不太高效，但它为理解模型背后的推理过程提供了更清晰的洞察，这在需要理解决策背后逻辑的案例研究中特别有益。

图 8：反事实推理的结果。绿色文字表示合理的回应。红色文字表示错误的回应。蓝色文字展示了 Llama2-70B-chat 的道德考量。它强调了在评估假设场景时道德推理的作用，这些场景虽然是假设的，但植根于现实世界的伦理困境。

7. 代码输入时的因果推理能力：GPT-4 显示出评估给定问题的可行性并提供逻辑一致的解释的特殊能力。这种技能对于准确识别和解决问题至关重要。然而，其他三个模型在这个方面没有展示出同样的熟练水平。它们难以准确识别问题的可行性，通常导致生成与预期结果或要求不符的代码。

图 9：代码生成结果。绿色文字表示正确的回应。红色文字表示错误的回应。

8. 图像能力：MLLMs 已经展示出熟练理解图像主要内容的能力，能够基于提出的查询分析图像中的大部分信息。然而，在需要精确定位的任务，如检测，或需要精确信息提取的任务，如涉及 OCR 功能的图表分析方面，仍有改进的空间。

图 10：图像计数结果。绿色文字表示更优秀的回应。红色文字表示错误的回应。所有的多模态大型语言模型（MLLMs）都无法准确地计算图像中物体的数量，这可能是由于遮挡问题，阻碍了它们在计数时准确识别物体，导致错误。

9. 多图理解任务：MLLMs 在处理涉及复杂推理的多图任务方面仍面临挑战。例如，机器人导航等任务，需要空间想象力，以及漫画分析等任务，涉及到图像之间的关系分析，对 MLLMs 来说都具有困难。

图 11：图像上下文学习结果。绿色文字表示合理的回答。红色文字表示错误的回答。所有 MLLMs 都无法准确读取时针指向的数字

10. 处理图像时的安全性和可靠性评估：在测试模型对视觉干扰的抵抗力时，Gemini 和其他模型表现差别比较大。尽管 Gemini 能够在加入高斯噪声的图片中识别出物体，但其准确度仍低于其他开源模型。在极亮或逆光条件下进行的测试中，Gemini 展现了一定的图像识别能力。它可以正确辨认高速公路上的夜景，但对于在明亮的日落背景中的剪影，它就难以识别。当面对没有具体信息的空白图片时，Gemini、开源模型 LAMM 和 LLaVA 倾向于给出类似幻觉的回答。与之相比，GPT-4 通过表明图片内容的缺失来展现了更为可靠的视觉能力，保证了事实上的准确。在图像安全性方面，与 GPT-4 相比，Gemini Pro 有明显的不足，用户可以相对容易地操纵 Gemini Pro 生成有害的回答。目前的开源模型和 Gemini Pro 在图像输入时的安全护栏方面都需要进一步改进。

图 12：一个关于食品安全的例子。绿色文字表示合理的回应。红色文字表示错误的回应。值得注意的是，GPT-4 和 Qwen-VL 都提供了合理的回应。然而令人不安的是，Gemini Pro 建议使用这些食物来伤害朋友，这种回应具有一定的危险性。

11. 图像因果推理能力：与 GPT-4 的能力相比，Gemini 的明显更弱，且它与其他开源模型如 LLaVA 等能力接近。Gemini 在复杂场景中，如城市中发生洪水等，辨别复杂细节方面存在很大的局限性。相比之下，GPT-4 擅长处理这些复杂场景，展示了更好的理解和分析能力。Gemini 的比较独特的一点是它倾向于对给定问题提供简洁但常常非常有限的回答，猜测可能和其训练策略有关。相反，GPT-4 的回复通常更加全面广泛，其有能力提供更富有洞察力的回应，并充分考虑上下文信息。

图 13：关于图像输入的因果推理能力的示例。绿色文字表示合理的回应。红色文字表示不合理的回应。开源模型 LLaVA 在视觉识别方面存在问题，而 Gemini Pro 和 GPT-4 能够识别 “燃烧”、“灭火” 和 “倒塌” 等关键词。此外，GPT-4 的回答更详细、包含更多内容。

12. 视频处理能力：针对视频输入的开源 MLLM 例如 VideoChat 表现优于 Gemini Pro 和 GPT-4。然而，与仅在图像指令数据集上进行微调的开源 MLLM 如 LLaVA 相比，Gemini Pro 展现出了更强的视频理解能力，包括对时序的建模。然而，闭源模型的优势并不明显，例如在涉及到查询具体视频内容的应用中，GPT-4 受其严格的安全协议约束，经常回避和拒绝问题。另外，Gemini 在基于当前状态预测未来事件方面表现出色，特别是在动态变化环境中，展示出较好的时间预测能力。

视频链接：https://mp.weixin.qq.com/s/CV9E63G7HF3gT5HqWDeMuA

图 14：移动状态下物体计数的评测结果：绿色文本表示的是正确的回答，而红色文本则表示错误的回答。GPT-4V 选择不回答与这种类型视频相关的问题，Gemini 的所有回答均不正确。而开源模型 VideoChat 能够准确评估物体的材料和数量，从而提供正确的答案。

13. 视频处理可信和安全性评测：和 Gemini 相比，GPT-4 在输入视频有噪声时的表现更加鲁棒，例如其能在视频有雨雾等视线不佳的情况下，对视频内容进行细致识别。当输入空白视频时，Gemini 出现了前后回答的不一致，有时会识别出内容缺失，但经常给出幻觉回应；相较而言，GPT-4 始终能识别出输入的是空白视频，而避免不符合事实的想象推断，展现了更加可靠的能力。在视频输入的安全评估方面，Gemini 的能力非常不稳定，它有时会给出道德或安全性上不合理的回应，例如提出让视频中的人们不开心的方法或给出描述引起爆炸的操作方法。而 GPT-4 始终展现出稳定卓越的安全性，在所有情境下都能立即识别并拒绝不适当提问。总的来说，GPT-4 的安全可信能力脱颖而出，而 Gemini 的安全防护机制还需优化和提升。

视频链接：https://mp.weixin.qq.com/s/CV9E63G7HF3gT5HqWDeMuA

图 15：视频输入时对于有害输出的评测。在这个测试案例中，研究者询问模型如何使视频中的两个人不开心。值得注意的是，Gemini Pro 给出了一系列方法，其中一些在伦理上是明显有问题的，比如建议造成身体伤害。而 GPT-4 和 LLaVA 则立即识别出提问的有害性，并拒绝了提供不当回答。绿色文字表示合理的回应。红色文字表示不合理的回应。

14. 视频因果推理能力：所有模型都比较差，目前的多模态大模型都无法准确捕捉关联的事件序列，并给出有效回应。较弱的时序理解能力导致了它们在未来预测方面的表现很差，特别是在涉及复杂情景中尤为明显。它们在理解和推断事件序列的因果关系方面的能力存在明显的不足，特别是当关键信息只在该视频序列的靠后时段才出现时则会更差。这种明显缺陷导致了它们无法对视频输入有效辨别和解释因果关系。

图 16：关于反事实推理的结果。红色文字表示错误的回应。蓝色文字表示模糊的回应。所有模型都无法识别紫色球体和紫色立方体之间的碰撞事件。

总结

本研究聚焦于多模态大语言模型（MLLMs）的能力，通过定性对人工设计的测试样例进行评测，并深入探讨了闭源和开源 LLM/MLLMs 在文本、代码、图像和视频四个模态上的应用泛化能力、可信安全能力和因果推理能力。结果显示，尽管 OpenAI 的 GPT-4 和谷歌的 Gemini 这些多模态大模型在多模态能力上取得了重大突破，但它们仍然存在局限性和明显缺陷。

本研究为深入理解 MLLMs 的潜力和局限提供了极有价值的参考，为未来多模态应用的发展提供了指导，以缩小多模态大模型与实际落地应用之间的差距。这对于推动通用人工智能技术在多领域的应用具有重要意义。