作者|苏霍伊
编辑|王博
3D AIGC领域传来融资捷报。
美国西部时间1月9日,Luma AI宣布,在B轮融资中共筹得4300万美元。本轮融资由Andreessen Horowitz(a16z)领投,Amplify、Matrix、Nvidia等机构参投。
Luma AI联合创始人兼CTO余思贤告诉「甲子光年」,这4300万美元将用AIGC打造3D和视觉模型。
「甲子光年」了解到,这轮融资使Luma AI的估值达到2-3亿美元,目前Luma AI的资金储备已超过7000万美元。
而在2023年3月,Luma AI便完成了2000万美元的A轮融资。这轮融资由Amplify Partners牵头,Nvidia和General Catalyst等机构跟进投资。现有股东Matrix Partners、South Park Commons等也参与了此次融资。
刚刚成立两年多的Luma AI,为什么会获得这么多投资机构和硅谷大佬的青睐?
1.从3D AIGC到多模态智能的跨越
Luma AI创立于2021年9月,由前苹果公司AR/CV计算机视觉工程师Amit Jain、加州大学伯克利分校(UCB)的人工智能研究员余思贤共同创立。
Luma AI创始人兼CEO Amit Jain毕业于密苏里谷学院的数学与计算机科学专业,2011年创立了Cultured Pixel公司,并担任Lead Developer。2017年,他加入Apple担任 AR/VR 部门的工程师,在3D计算机视觉、相机、机器学习、系统工程和深度技术产品方面有着丰富经验。
Luma AI创始人兼CEO Amit Jain,图源:CESIUM
余思贤是Luma AI的联合创始人兼CTO,他2021年毕业于UCB的计算机科学与应用数学专业,在校期间他与BAIR教授Angjoo Kanazawa一起进行NeRF相关的 3D 计算机视觉研究。余思贤曾在Adobe和Google实习,在BAIR和Adobe期间,他一直致力于通过Plenoxels (CVPR 2022)、PlenOctrees (ICCV 2021) 和 PixelNeRF (CVPR 2021) 推进神经渲染和实时图形领域的研究。
Luma AI的联合创始人兼CTO余思贤,图源:THE ORG
Luma AI的核心技术是NeRF(Neural Radiance Fields),这是一种三维重建技术方案,它的特点是基于现有视角的图像生成新视角的图像。有了NeRF,可以通过拍摄大量图片或视频来创建出一个可微分的三维场景。相较于传统的摄影测量方案,NeRF的优势在于可以用更少量的数据生成三维模型。
Luma AI是基于NeRF的一种衍生算法,在原有的NeRF算法的基础上,Luma AI做了很多改进和优化。Luma AI在场景图像获取、数据预处理、模型训练、模型渲染及其他模型文件的生成等方面均做了很多优化工作。
与之前的3D扫描技术不同,它不需要专门的硬件(如激光雷达传感器),且输出的质量比我们以前见过的任何东西都要高得多,具有更高的视觉保真度和照片真实感。光线、阴影和反射都可以通过NeRFs实现。
Luma AI的效果展示,图源:Luma AI官网
数据驱动的工程平台公司Athenian创始人兼首席执行官Eiso Kant十分看好Luma AI的未来发展,他表示:“NeRFs如何与其他技术相结合去创造未来的媒体?在短短几年内,我们可能会看到一部以Luma AI生成的3D模型为背景的长篇电影,演员由Midjourney生成,剧本由ChatGPT编写,并由ElevenLabs配音。”
自公司成立以来,Luma AI推出了一系列产品和服务,包括将图片、视频和文本转换为3D内容的功能。Luma AI当前应用场景主要为生活记录、游戏制作、动画和影视制作、商品展示和销售。除此之外,NeRF 和 3D 生成技术还可应用于地图和导航、机器人等领域。
Luma AI曾在2021年推出了一款手机应用,至今已有超过200万注册用户。
随着生成式AI的浪潮席卷而来,Amit Jain和余思贤都希望创造“something bigger — and, with any luck, better — than they originally envisioned(创造比设想得更了不起的事物)”。
当地时间1月9日,Luma AI发布了一个文本生成3D模型的项目Genie 1.0。Genie是一款文本转3D模型,能够在10秒内使用材质、四边形网格重新拓扑、可变多边形计数以及所有标准格式创建任何3D对象。
同时,Luma AI还宣布,他们将开始使用约3000个Nvidia A100 GPU的计算集群来训练新的AI模型,余思贤告诉「甲子光年」:“我们希望训练得AI模型可以做到‘洞悉并领悟、展示并阐释,并最终与世界万物交互’。”
Luma AI第一阶段目标是开发能够根据文本描述生成3D对象的模型。
去年他们迈出了这一规划的第一步。Luma AI在Discord服务器上推出了名为Genie的模型。接下来的,他们的工作重点将是研发“下一代”生成式AI模型,解决当前GenAI领域存在的“恐怖谷效应”。
1970年,日本机器人专家森政弘发表论文并提出了“恐怖谷理论”,这个理论的内容是:当仿人类的造型与人类在外表等方面足够相像、但又做不到完全相同的时候,微小的差异会格外明显,从而使造型失去亲和力,人类会对其产生反感、恐惧、厌恶等情绪;而且,动态的仿人类造型如果逼近真人的姿态和动作,会产生比静止造型更剧烈的“恐怖谷效应”。
在余思贤看来,多模态在智能发展中是“十分重要的”。他认为超越语言模型的关键在于视觉智能,“为了实现这一目标,B轮融资的4300万美元将用AIGC打造3D和视觉模型。”
3D AIGC生成领域竞争日益激烈。市场上已有3DFY和Scenario等物体制作平台,以及Meshy AI、Hypothetic、Kaedim、Auctoria和Mirage等公司。Stability AI最近推出了独立的3D模型生成工具,而新兴企业Atlas也在这一领域有所动作。像Nvidia和Autodesk这样的行业巨头也开始涉足,Nvidia推出了将图像转换为3D模型的Get3D,Autodesk则推出了根据文本描述生成3D模型的ClipForge。
想要在众多竞争者中脱颖而出,保真度是“必争之地”。
余思贤介绍,当前的模型大多基于二维图像训练,当尝试生成场景时,往往会出现空间、身体和运动的扭曲,在短时间内生成连贯且可用的内容非常困难,这也限制了输出的3D模型应用范围。
“我们正在带来最先进的生成性真实感技术,并将其应用在一个直观的应用中。”余思贤说。
2.只等一个“Midjourney时刻”
Luma AI正积极推进其发展计划,计划到明年底,会将现有的24人工作团队扩大一倍,并建立由数千个GPU组成的模型运行服务器集群。Luma AI是否能实现这些目标,时间将给出答案。
但不容忽视的是,在AIGC的热潮中,3D再次走上舞台。
第一波“3D热”大约发生在2017年,苹果的iPhone X首次引入3D结构光技术,但由于成本和体验提升有限,这一技术并未在智能手机市场广泛流行。
2021年,随着Roblox的上市、Oculus Quest VR头盔销量的激增,以及Facebook更名为Meta,元宇宙概念开始崭露头角,引发了第二次“3D热”。但VR和XR设备在当时仍然局限于游戏主机的范畴,未能实现更广泛的应用。
而当前的“3D热”则是与AI相伴相生的,过去的一年里,3D AIGC进入涌现期。
特别是大型语言模型和文本到图像生成技术的进步,为3D内容的创建提供了新的可能性。苹果Vision Pro则展示了软件和硬件层面的新进展,也让更多从业者看到了前景。游戏、影视和XR产业对3D数据的需求激增,促使3D生成领域多项算法、技术等更新。在质量、效率、可控性多项关键性能上,学术研究也有不少突破。
在3D AIGC领域,构建基础模型是一个宏伟的目标,但目前3D生成技术仍面临诸多挑战,包括生成质量的不稳定性、速度瓶颈以及场景多样性的局限。
若要将这些技术应用于实际商业场景,还需解决如何适应特定的设计风格、提高编辑的灵活性,以及如何与现有的生产流程相融合或进行必要的重构等问题。
随着人工智能和机器学习技术的飞速进步,3D AIGC正经历着一场技术革新的浪潮。这些技术不仅在游戏和电影产业中创造了令人惊叹的视觉效果,还在建筑、城市规划、教育、医疗和产品设计等多个行业发挥着重要作用。
在游戏和娱乐行业,3D内容生成质量正在不断提高,为玩家提供了更加沉浸式的体验;在建筑和设计行业,3D可视化工具使得设计师能够更直观地展示和沟通他们的构想,加速了从概念到现实的转化过程。在教育行业,3D模型和模拟为学生提供了生动的学习材料,提高了教学效果。而在医疗健康行业,3D打印技术的进步使得定制化的假肢和器官模型成为可能,为患者提供了更好的治疗方案。
Amit Jain说:“借助Genie,运用AI大规模制作3D物品或许将不再只是幻想。”
Amit Jain的话也体现了一个痛点——传统的3D建模过程通常较为繁琐,且往往需要大量的手工操作,这不仅导致制作周期延长,同时也增加了整体成本。但随着3D生成技术的不断成熟,预计3D AIGC将会替代现在的部分3D制作环节。
3D AIGC的未来充满了无限可能,技术创新和市场需求将共同推动这一领域向更加成熟和多元化的方向发展。
3D AIGC,只等一个“Midjourney时刻”。
(封面图来源:Luma AI)