当前位置:首页|资讯|ChatGPT|Claude|谷歌

我们与 GPT-4V 的距离

作者:Tobiaslee发布时间:2024-03-11

在 ChatGPT 引爆 AI 圈之后,很多人预言 2024 年将会是多模态的元年。的确,我们在 23 年的最后一季度见证了 GPT-4V 的发布,前不久Google 家的 Gemini 和 Anthropic 的 Claude 3 也同样支持多模态 (Multimodal to Text),并且 Gemini 1.5 中能够从两小时的视频中准确“捞针”出其中一帧包含的画面。国内这方面的工作以 Qwen-VL 为代表,也同样取得了非常不错的效果。我们最近也在大视觉语言模型(LMM)做了一些尝试,发布了 R...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1