当前位置:首页|资讯

在线教程 | 打败 GPT-4V?超强开源多模态大模型 LLaVA-OneVis

作者:HyperAI超神经发布时间:2024-10-16

大语言模型(Large Language Model,简称 LLM)与多模态大模型(Large Multimodal Model,简称 LMM)是人工智能领域的两个核心发展方向。LLM 主要致力于处理和生成文本数据,而 LMM 则更进一步,它旨在整合和理解包括文本、图片、视频在内的多种数据类型。如今,LLM 已经相对成熟,ChatGPT 等在文字理解方面已经「对答如流」,人们开始将目光转移到多模态数据的理解上,令模型能够「读图、看视频」。 近期,来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1