6月15日,2024中关村论坛系列活动北京智源大会举办第二日,“视觉大模型”专题论坛顺利召开。昆仑万维兼天工智能首席科学家颜水成、南开大学教授程明明受邀出任论坛主席,与论坛嘉宾共同探讨业内顶尖视觉大模型与多模态大模型的前沿进展,并就模型设计、算法搭建、数据模态、训练资源等问题展开交流。
近年来,随着大模型“文本-图像”“文本-视频”等领域取得突破性进展,以Midjourney、Sora、GPT-4o等为代表的一系列多模态项目迎来爆发,多模态视觉大模型正日益成为人工智能领域的焦点。
颜水成表示,本轮人工智能技术爆发始于语言大模型,而在今年以来,以Sora为代表的多项原生多模态大模型都取得了可喜的成绩,多模态视觉大模型的重要性愈发凸显。多模态大模型能够融合文本、图像、视频、音频等多种信息形式,实现更为全面、深入的理解与分析,综合运用多种感知方式来理解世界,是通向通用人工智能的重要路径。
同时,颜水成指出,当前越来越多的学术与产业界的研究重心开始往通用大模型倾斜,在视觉与多模态大模型领域,也涌现出了单模态视觉大模型、跨模态/多模态融合大模型等不同研究思路。研究人员是否能够离开文本独立训练通用视觉大模型,也是一个值得工业与学术界进一步探索的前沿方向。
今年4月,由颜水成教授带队,昆仑万维、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。这是一款统一的像素级视觉多模态大语言模型,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,能够全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务,展示了研发大一统的视觉多模态通用大模型的巨大潜力,也为下一代通用视觉大模型的终极形态奠定了基础。
近年来,随着大模型技术蓬勃发展,视觉与多模态大模型领域相关研究取得多项突破性进展。多模态视觉大模型能够通过融合多种模态的信息,帮助人工智能更好地理解和处理现实世界中的复杂问题,从而推动通用人工智能的实现。昆仑万维坚定践行“All in AGI与AIGC”战略,不断推动语言、视觉、多模态等领域大模型技术的前沿发展与应用落地,为人工智能生态建设贡献力量。
● 昆仑万维颜水成受邀参与2024北京智源大会大模型产业技术论坛分享
● 昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理
● 昆仑万维宣布天工AI每日活跃用户(DAU)超过100万
● 昆仑万维与北京联通达成战略合作 推动人工智能产业落地
● 中国首个音乐SOTA模型「天工音乐大模型」今日公测
● 「天工大模型3.0」4月17日正式发布,同步开源4000亿参数MoE超级模型
● 昆仑万维开源「天工」Skywork-13B系列大模型