当前位置:首页|资讯|融资|OpenAI|Sora

多模态大模型创企生数科技完成新一轮数亿元融资

作者:证券时报发布时间:2024-03-12

原标题:多模态大模型创企生数科技完成新一轮数亿元融资

3月12日,记者从生数科技获悉,公司近日已完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投,华兴资本担任独家财务顾问。据生数科技介绍,本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。

公开资料显示,生数科技成立于2023年3月,致力于图像、3D、视频等原生多模态大模型的研发。公司核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。

今年2月,OpenAI推出了视频生成模型Sora,备受市场关注。OpenAI发布的技术报告显示,Sora采用的是Diffusion Transformer架构DiT。所谓Diffusion Transformer,是指在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的智能涌现能力。

据了解,DiT架构由伯克利团队于2022年12月发表。但生数科技表示,早在2022年9月,公司创始成员就提出了基于Transformer的网络架构U-ViT,两项工作在架构思路与实验路径上完全一致,均是将Transformer与扩散模型融合。当时,U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性,这项工作在计算机视觉领域的顶级会议CVPR 2023发表,早于DiT成为全球范围内最早被提出的Diffusion Transformer架构。

2023年3月,团队开源了全球首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型UniDiffuser。除了单向的文生图以外,Unidiffuser还支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。截至去年9月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版),全链路自主训练、自主研发,在图像生成、3D生成、视频生成等多项任务中达到国际一流水平。

除了在技术上领先,商业化落地方面,生数科技在to B、to C端同时发力,一方面以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。目前,公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,开放模型服务,提供AIGC个性化体验、定制化内容生产等方面的能力。

启明创投合伙人周志峰认为,如今的大模型已经从原来的纯语言模态,逐步走向多模态的探索。生数科技从去年成立之初就选择多模态赛道,是国内这个领域起步最早、积累最深的团队,不仅具有前瞻的技术视野,更是经过了大规模训练的验证,展现出强大的技术可行性。“这种兼具开拓性和成熟度的核心工作,让我们对生数科技在多模态大模型方向的长期发展充满信心。”周志峰说。

达泰资本合伙人姚承表示,在当下大模型赛道的竞争中,生数科技在多方面都脱颖而出。不仅敏锐洞察到多模态的前沿趋势,而且作为国内最早投身多模态赛道的公司,生数科技在过去短短一年的时间内就取得了令人瞩目的成绩单,从基础设施、模型算法、数据资源到场景化应用积累了独特的竞争优势。同时生数科技也是国内极少拥有“从零开始、自主训练”大模型能力的公司,具备深厚理论基础和实践经验,拥有突破主流框架技术难点和瓶颈的技术实力。

对于未来的规划,生数科技表示将始终坚持“原生多模态”方向,基础模型层面会持续优化,不断提升语义理解、可控性、美观度方面的生成效果,近期则将重点突破长视频生成能力。在产品端,现有产品将持续迭代,不断满足用户需求,实现用户量的持续增长,同时公司也正在探索工具以外的全新产品形态,致力于提升每个人的创造力和生产力。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1