深圳商报首席记者 袁静娴
从视觉到语言,过去一年,深圳的人工智能技术获得了哪些创新性发展?11月22日,被誉为深圳人工智能行业的“春晚”——2023 IDEA大会在深圳举行。IDEA(粤港澳大湾区数字经济研究院)创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,发布IDEA研究院近一年的重磅研产结晶与市场化成果。
粤港澳大湾区数字经济研究院(简称“IDEA研究院”)致力于人工智能和数字经济领域的前沿研究与产业落地,于2020年成立,是一家国际化创新型机构。领军团队除了沈向洋外,还有国际欧亚科学院院士李世鹏、前微软技术合伙人谢育涛等领军科学家。
视觉大模型:将视觉做到极致再加语言
以GPT-4V为代表的多模态大模型,已经在语言能力上增加视觉能力,那么未来视觉大模型还有机会吗?在沈向洋看来,场景的长尾化、问题的碎片化是计算机视觉的两大难题,只有对物理世界有了更为精准的、物体级别的视觉理解,才有可能做出真正的多模态智能。为此,IDEA提出了另一条视觉大模型的技术路径:先将基础的视觉能力做到极致,再增加语言能力,做到言之有据、开放词表、可提示交互。
大会上,IDEA交出了视觉大模型的“作业”:视觉提示模型T-Rex,一个开箱即用的模型,无需重新训练或微调,即可检测模型在训练阶段从未见过的物体。团队表示,在真实应用场景中,许多罕见、复杂物体难以用文字充分描述,视觉提示的加入能够有效解决这一痛点。直观的视觉反馈与强交互性,也有助于提升检测的效率和精准度。
降低AI“胡说八道”:知识图谱来助力
即便以Chat GPT为代表的大模型发展已经十分先进,但也依然存在着深度推理能力差、知识不可追溯、实时更新代价高等局限性,“一本正经地胡说八道”仍然是AI目前难以解决的痛点。
为此,IDEA研究院团队研发了Think-on-Graph(思维图谱)技术,让大模型和知识图谱强强联合。总体来说,大模型更擅长意图理解和自主学习;而知识图谱因其结构化的知识存储方式,擅长逻辑链条推理,具有更佳的可解释性与可实时更新性。
从现场展示的情况来看,Think-on-Graph通过实现两者的紧耦合交互,驱动大模型agent在知识图谱上“思考”,逐步搜索推理出最优答案(在知识图谱的关联实体上一步一步搜索推理)。每一步推理中,大模型都亲自参与,与知识图谱相互取长补短,有效地降低了AI“胡说八道”问题出现的比例。
语言类项目:新技术提升代码生成效率
除了在人工智能方向上一往无前,成立以来,IDEA研究院还十分重视计算机科学领域中其他分支的创新,比如语言类项目。“得语言者得天下。”沈向洋说。
今年8月,一个中国团队开发的编程语言在Hacker News(由Y Combinator创办的知名科创社区)登上头版头条,这正是由IDEA研究院推出的MoonBit月兔。
MoonBit是由Wasm驱动,专为云计算与边缘计算设计的开发者平台,同时利用AI大模型赋能传统工具链,提升代码生成效率。MoonBit不仅提供通用程序语言设计,还垂直整合了编译器、构建系统、集成开发环境(IDE)、部署工具等板块,提升开发体验与效率。
创业:已成为许多技术创新者的“下一站”
近年来,技术创业已然成为许多技术创新者的下一站。在演讲中,沈向洋用Transformer架构开山之作《Attention is All You Need》举例,这篇论文的八名作者如今全部在创业,且公司估值不菲。他表示,IDEA研究院一直致力于创造一个架构,让科学家头脑、企业家素质、创业者精神能够自由碰撞,严谨产出。成立刚满三年,IDEA研究院也带来一批已经或正在走向大市场的优秀创业项目。
这些项目中,既有主打AI for Scientists的AI科研产品ReadPaper,也有为数据要素可信流通提供硬件级安全保障的SPU机密计算协处理器、SPU-G异构AI协处理器,还有基于自研知识图谱与生物医学领域大模型的脑卒中智能防护产品StroCare。