北大清华等联合发布LLaVA-o1：首个自发性视觉AI模型，推理计算Scaling新思路

作者：砍柴网发布时间：2024-11-19

11 月 19 日消息，由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学（Lehigh University）组成的研究团队，最新推出了 LLaVA-o1，这是首个具备自发性（Spontaneous，具体解释可参考文末）、类似于 GPT-o1 的系统性推理视觉语言模型。

LLaVA-o1 是一种新型的视觉语言模型（VLM），其设计目标是进行自主的多阶段推理。

LLaVA-o1 拥有 110 亿个参数，基于 Llama-3.2-Vision-Instruct 模型开发，设计了总结（summary）、描述（caption）、推理（reasoning）和结论（conclusion）4 个推理阶段。

该模型使用名为 LLaVA-o1-100k 的数据集进行微调，该数据集源自视觉问答（VQA）来源和由 GPT-4o 生成的结构化推理注释。

LLaVA-o1 采用了阶段级束搜索（stage-level beam search）的推理时间 Scaling 技术，能够在每个推理阶段生成多个候选答案，并选取最佳答案。

该模型在处理复杂任务时具备较强的能力，在复杂视觉问答任务中，可以突破传统视觉语言模型的局限性。

与基础模型相比，LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能，超过了许多大型和闭源的竞争对手。

LLaVA-o1 的推出填补了文本和视觉问答模型之间的重要空白，在多个基准测试中的优异表现，特别是在数学和科学视觉问题的推理领域，展示了结构化推理在视觉语言模型中的重要性。

自发性人工智能（Spontaneous AI）是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。

【来源：IT之家】

相关资讯

【国金研究·周观点】自发性融资需求，尚待进一步修复

融资汽车 AIGC

国金证券研究 2023-10-16

王小川旗下大模型正式发布：70亿参数量，北大清华已用｜把脉AI大模型

王小川旗下大模型正式发布：70亿参数量，北大清华已用｜把脉AI大模型界面新闻记者肖芳 6月15日，搜狗创始人王小川的新公司百川智能推出了70亿参数量的中英文预训练大模型——baichu

王小川北大清华 AI大模型

界面新闻 2023-06-15

广东加快建设AGI等产业；北大等开源视觉大模型Video-LLaVA丨AIGC大事日报

1、百度Q3财报：将继续优先投资生成式AI2、vivo千询AI助手正式上线应用商店3、OpenAI的客户考虑转向微软谷歌等企业4、超95%员工要求OpenAI董事会辞职5、北大等开源视觉大模型

AGI 生成式AI 北大 AIGC

智东西 2023-11-21

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

编辑：拉燕【新智元导读】微软&哥大联合发表视觉指令微调论文，LLaVA出炉！视觉指令微调火了。这篇论文名为Visual Instruction Tuning，由威斯康星大学麦迪逊分校，微软研究院

GPT-4 微软

新智元 2023-04-29

这项世界大学排名今天公布北大清华分列第几？你服不服？

国际高等教育研究机构QS今天正式发布第20版世界大学排名，北京大学是中国（大陆）高校中唯一一所位于全球前20的院校。我们在达沃斯上还偶遇了哪些大咖？今年以来，在ChatGPT浪潮下，围绕人工智能新技术的讨论越…

北大清华教育 ChatGPT

钱江晚报 2023-06-28

北大清华等联合发布LLaVA-o1：首个自发性视觉AI模型，推理计算Scaling新思路

推荐体验

相关资讯

【国金研究·周观点】自发性融资需求，尚待进一步修复

王小川旗下大模型正式发布：70亿参数量，北大清华已用｜把脉AI大模型

广东加快建设AGI等产业；北大等开源视觉大模型Video-LLaVA丨AIGC大事日报

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

这项世界大学排名今天公布北大清华分列第几？你服不服？

近期资讯

未来职业规划 | 作为产品，如何选好自己的发展赛道？

人口不到7万的苏北小镇，垄断了北上广90%的炒货店

93亿并购，“弟弟”成了“爹”

普利策奖得主穆克吉：这会是未来医学的发展方向。

抖音电商是如何成为生意的

浙江千叶印刷有限公司取得印刷品用支撑固定装置专利，能固定不同转角的物体

网易Q3财报：暴雪贡献巨大增长，但游戏收入同比下降

下滑15.87%！格力电器，营收“失速”

师承松下幸之助经营哲学的稻盛和夫，是如何让日航起死回生的？

赛宁信息技术取得一种镜像工具的自动化命令编排方法与系统专利

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响