11月22日,2023 IDEA大会在深圳举行。IDEA研究院(粤港澳大湾区数字经济研究院)创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,发布IDEA研究院的重磅研产结晶与市场化成果。同时,沈向洋还从技术创新、技术创业、技术驱动新产业三个角度,分享科创的实践与思考。
“我们今天到底应该干什么?视觉大模型还有没有机会?”对于席卷全球的大模型热潮,沈向洋抛出这么一个问题。
在沈向洋看来,计算机视觉领域有着长尾化、碎片化等特点,甚至一百个场景的话就得有一百个模型,而互联网的数据不能覆盖计算机视觉检测的场景,所以行业开始呼唤通用视觉大模型的来临,且主流做法像GPT4V等多模态大模型通过语言的能力增加计算机视觉。
IDEA研究院计算机视觉团队选择了另一条路径,先将基础的视觉能力做到极致,再增加语言能力。
“我们认为,物体级别的理解(object-level understanding),也就是检测、分割、识别,是连接语言和视觉这两种最重要的模态的基石。”沈向洋表示,只有对物理世界有了更为精准的、物体级别的视觉理解,才有可能做出真正的多模态智能。IDEA团队将通过让模型言之有据(grounded)、开放词表(open-set)、可提示交互(promptable),来探索视觉大模型之路。
与此同时,大模型虽好,但“一本正经的胡说八道”怎么解?
据了解,大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。
在IDAE研究院的研究团队看来,大模型和知识图谱之间的互补,或许是解决上述难题的思路之一。
“大模型的训练过程依赖于语料和大量网上的文本,语料本身是碎片化的知识,而非结构化的知识。系统化则是知识图谱本身的优势,它将知识之间的因果关联、上下游的关联、知识之间各种的联系融为一体,形成一个庞大的网络。”IDEA研究院执行院长、AI金融与深度学习研究中心负责人,同时,通过图数据库上的Alt、Delete、Update的简单操作,知识图谱的更新速度更快和成本更低,从而将大模型的优势和知识图谱的优势相融合来进行深度推理。
为此,IDEA研究院团队研发了Think-on-Graph(思维图谱)技术,让大模型和知识图谱强强联合。总体来说,大模型更擅长意图理解和自主学习;而知识图谱因其结构化的知识存储方式,擅长逻辑链条推理,具有更佳的可解释性与可实时更新性。Think-on-Graph通过实现两者的紧耦合交互,驱动大模型agent在知识图谱上“思考”,逐步搜索推理出最优答案(在知识图谱的关联实体上一步一步搜索推理)。每一步推理中,大模型都亲自参与,与知识图谱相互取长补短。
“懂语言者得天下”,除了分享在人工智能领域的探索外,沈向洋还在会上重点介绍了两个语言类项目。
今年8月,IDEA研究院推出的MoonBit月兔在Hacker News(由Y Combinator创办的知名科创社区)登上头版头条。MoonBit 是由Wasm驱动,专为云计算与边缘计算设计的开发者平台,同时利用AI大模型赋能传统工具链,提升代码生成效率。IDEA研究院展示的另一门新语言是区块链并行智能合约语言GCL。不同于传统的“数据跟着代码跑”的方案,GCL设计了“代码执行跟着数据跑”的编程模型,以减少因数据传递造成的麻烦。
相关资料显示,成立刚满三年,IDEA研究院也带来一批已经或正在走向大市场的创业项目。既有主打AI for Scientists的AI科研产品ReadPaper,也有为数据要素可信流通提供硬件级安全保障的SPU机密计算协处理器、SPU-G异构AI协处理器,还有基于自研知识图谱与生物医学领域大模型的脑卒中智能防护产品StroCare。
出品:南都湾财社·科创工作室
采写:南都·湾财社记者 陈培均