科学家打造多模态模型，7B和1.3B小模型均开源，可部署手机等终端

作者：DeepTech深科技发布时间：2024-04-09

Sora

在最近一项研究中，DeepSeek-AI 团队针对多模态大模型展开了深入探索。选择这一研究方向，背后有着多重考量。

最初，该团队围绕是否聚焦于多模态生成、多模态理解、或是两者的统一框架进行了广泛讨论。

基于对通用人工智能（AGI，General Artificial Intelligence）的追求——这一点也一直是他们的研究主线和研究理想，最终其决定致力于深化对于开放世界的理解。

（来源：arXiv）

他们相信这不仅是实现先进多模态生产的前提，长期来看也可以对多模态生成进行赋能。

比如，Sora 就使用了多模态模型对训练数据进行了大量的标注，这也证明长远来看“理解与生成”一定是相互补充、相互促进的关系。

此外，他们选择先从增强大语言模型的更多模态处理能力入手，也是鉴于该团队在语言理解领域积累的深厚经验。

这一决策同样受到了科技界广泛关注的趋势影响——即强化大模型的多模态能力，包括强化对于文本和图像的理解。

这一方向被认为是未来发展的关键，能够极大地拓展大模型在现实世界的应用范围，比如为视障人士提供辅助，或在机器人技术和日常生活自动化等领域的应用。

然而，目前市场上表现出色的多模态大模型大多为闭源（如 OpenAI 的 GPT4V、Google 的 Gemini），这限制了多模态大模型在更广泛领域的应用和发展。

而目前大部分开源多模态模型目前主要还是集中在学术领域，且对预训练模型的深入探索较少。

鉴于此，他们认为开发一个面向实际应用场景的开源多模态模型，不仅对科技社区有重大意义，也将极大地促进多模态大模型在更多跨领域的发展。

研究中，该团队首先从一个 10 亿参数的小模型开始，逐步扩展到几十亿参数规模的模型，一步一步地走完了整个多模态预训练流程。

过程中他们从数据、模型架构与训练策略上协同推进，最终把相关发现形成科技报告并开放给所有人，也开源了最终的预训练模型与微调模型。

值得一提的是，本次成果与苹果公司最近发布的多模态模型 MM1 有着很多相似之处。

多模态大模型的应用前景极其广阔，如果把当前的大语言模型（LLM，Large Language Model）视为一个初期的智能体，那么多模态就是通过扩展其感知能力，让这个智能体能够更全面地与现实世界互动。

（来源：arXiv）

目前，该团队主要关注视觉模态和语言模态，但未来计划将其扩展到包括音频和嗅觉在内的更多模态，使之成为一个真正能够与世界连接的智能体。

从应用角度来看，这种多模态智能体的潜力几乎是无限的。它们可以成为每个人的超级助理，承担人类能够想象到的所有工作。

在初期阶段可以作为辅助工具，后续将逐渐发展到彻底将人类从繁重劳动中解脱出来。

这种智能体不仅能够理解并压缩人类社会的知识，还能与现实世界进行直接交互，这意味着它们的应用场景非常广泛，包括但不限于自动化助手、教育、医疗、创造性工作、日常家务等领域。

长期来看，这些多模态大模型的发展潜力可能将远超人类当前的想象。

预计它们将成为人类社会不可或缺的一部分，帮助人们更有效地利用资源和提高生活质量，同时也能为人类打开一扇窗口，让我们以全新的方式理解世界。

据介绍，该团队从 2023 年中开始着手本次项目。最近半年到一年间，整个行业在多模态方向上取得了飞速进展。

科技社区的活动非常热烈，开源和闭源的模型都变得越来越强大，几乎每个月都有相关模型发布，对于他们这些从业者来说是一种鞭策。

同时，相比于架构比较成熟的大语言模型而言，多模态模型的架构并未拥有一个非常确定的结构。

（来源：arXiv）

各个模块之间的选择都有值得探索的地方，这些不确定性让他们更多是感到十分兴奋，也让他们觉得还有更多的机会。

庆幸的是即便在这种情况下，该团队也得到了不错的算力支持和数据工程支持。

这让他们能够快速迭代，进行更全面的数据采集、更好的数据清理，并能够优化语言-多模态数据集的配比，以及探索更好的模型结构和训练策略。

此外，除了开源 7B 模型之外，该团队同样也开源了 1.3B 的小模型。

研究人员表示：“DeepSeek-VL 1.3B 小模型的性能同样强悍，在部分指标上超越了 7B 模型。”

这些小模型可以满足算力缺乏型开发者使用，也更方便在手机等移动终端上部署。

日前，相关论文以《DeepSeek-VL：面向真实世界的视觉语言理解》（DeepSeek-VL：Towards Real-World Vision-Language Understanding）为题发在 arXiv[1]，Haoyu Lu、Wen Liu、Bo Zhang 是共同一作。

图 | 相关论文（来源：arXiv）

不过，多模态框架目前还没有明确的定型，当前的这套 Vision Encoder + Projector + LLM 是不是最终的答案还值得商榷。

研究人员表示：“DeepSeek-VL 是我们在多模态上的第一个起始工作，后续的工作一定是更有趣、更有意义、且更长远的。”

参考资料：

1.https://arxiv.org/pdf/2403.05525.pdf

2.https://github.com/deepseek-ai/DeepSeek-VL/tree/main

3.https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B

运营/排版：何晨龙

近期资讯

2025 年的十个营销趋势

随着2024年的落幕，我们站在新一年的门槛上，回望过去，展望未来。在这篇文章中，我们将深入探讨2025年营销领域的十大趋势，从品牌心智的复兴到直播带货的退潮，从AI技术的双刃剑效应到跨国品牌的挑战。

寻空 2024-12-27

中国饮食，又被柳叶刀点名了？

陈根谈科技 2024-12-27

怎样利用微信小店“送礼”功能赚钱？

探索微信小店“送礼”功能背后的商业潜力，本文将带你深入了解如何在微信这个庞大的社交平台上，通过创新的“送礼”功能找到新的盈利模式。

郭静 2024-12-27

拼多多助力带来的赚钱机会！

你是否曾对拼多多的砍价信息感到烦恼，甚至因此拉黑了一些亲友？然而，在这个看似令人不悦的现象背后，其实蕴藏着巨大的流量和变现潜力。

十里村 2024-12-27

劲方医药向港交所提交上市申请

36氪 2024-12-27

福建翰达取得新型填料箱蝶阀专利，避免蝶阀阀板因冻结无法转动

金融界2024年12月27日消息，国家知识产权局信息显示，福建翰达流体控制设备有限公司取得一项名为“一种新型填料箱蝶阀”的专利，授权公告号CN222209018U，申请日期为2024年5月。

金融界 2024-12-27

新乡市远东阀门取得防泥沙型蝶阀专利，防止泥沙进入蝶阀提高使用寿命

金融界2024年12月27日消息，国家知识产权局信息显示，新乡市远东阀门有限公司取得一项名为“防泥沙型蝶阀”的专利，授权公告号CN222209023U，申请日期为2024年5月。

金融界 2024-12-27

外企产品设计日记｜产品经理必备需求分析能力之 Frame 结构化

本文通过生动的案例，详细解释了如何通过Problem Statement和Goal Statement两个模板，系统地拆解和理解用户需求，从而更精准地定义问题和目标。

CoopyZhou 2024-12-27

国产076两栖攻击舰震撼登场，创三项世界第一

黑科技老黄 2024-12-27

这十年，吃谷阵地的大变迁

从最初的QQ群组交易到如今淘宝、微信等平台的多元化发展，谷子经济不仅见证了二次元文化的兴起，也反映了消费者行为和市场生态的深刻变化。在这篇文章中，我们将深入探讨过去十年间谷子经济的演变和发展趋势。

价值星球Planet 2024-12-27

科学家打造多模态模型，7B和1.3B小模型均开源，可部署手机等终端

推荐体验

相关资讯

7B超越百亿级，北大开源aiXcoder-7B最强代码大模型，企业部署最佳选择

最好的7B模型易主，免费开源可商用，来自“欧洲的OpenAI”

阿里大模型又开源！能读图会识物，基于通义千问7B打造，可商用

2024 AIGC每日新闻|7月23日-苹果7B模型超越Mistral 7B

OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mistral 7B全开源

近期资讯

2025 年的十个营销趋势

中国饮食，又被柳叶刀点名了？

怎样利用微信小店“送礼”功能赚钱？

拼多多助力带来的赚钱机会！

劲方医药向港交所提交上市申请

福建翰达取得新型填料箱蝶阀专利，避免蝶阀阀板因冻结无法转动

新乡市远东阀门取得防泥沙型蝶阀专利，防止泥沙进入蝶阀提高使用寿命

外企产品设计日记｜产品经理必备需求分析能力之 Frame 结构化

国产076两栖攻击舰震撼登场，创三项世界第一

这十年，吃谷阵地的大变迁

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响