文|武静静
编辑|邓咏仪
36氪获悉,视频大模型公司「爱诗科技」近日已完成亿级A1轮融资,本轮融资由达晨财智独家投资。光源资本担任独家财务顾问。公司称,资金将主要用于底层视频大模型的技术研发及团队搭建等方面。
2024年2月,OpenAI发布Sora之后,在视频大模型行业掀起了新的风浪,爱诗科技也因此受到广泛关注。
爱诗科技由字节跳动前视觉技术负责人王长虎创办于2023年4月,专注于打造全球顶尖的AI视频生成模型及应用,并服务于营销、广告、游戏等内容创作行业。
王长虎是人工智能领域的专家,也有丰富的产品经验。他博士毕业于中国科学技术大学,2009年毕业后,担任过微软亚洲研究院主管研究员,曾在新加坡国立大学担任研究工程师。2017年初,王长虎加入字节跳动,任人工智能实验室总监、集团视觉技术负责人,搭建了视觉技术团队和视觉算法平台和业务中台,并支撑了抖音和TikTok等产品从0到1的建设和发展。
这是王长虎第一次创业,他告诉36氪:“我一直有一个创业的情结,想要尝试从0开始,孵化技术和产品,用人工智能影响和帮助尽可能多的企业和用户。UGC向AIGC转变过程中存在大量的机会,我们想抓住这个机会。”
眼下,整个视频行业被Sora的惊艳亮相炒的风风火火,有人把Sora的出现形容为视频生成领域的ChatGPT时刻,OpenAI和其他公司的差距正在进一步拉大,创业公司很难出头。
王长虎持有相反的观点,他认为,目前Sora的技术发展相当于在GPT2和GPT3之间,还没到GPT-4的水平,留给市场的空间很大。
在他看来,视频模型的生成能力好坏体现在三个维度:第一,准确性,即判断生成的视频内容是否和输入的prompt或图片匹配,符合用户预期;第二,一致性,即生成的视频中的主体、背景和运动是否有连贯性,是否符合真实世界的物理规律;第三,信息丰富度,即在一段时间内生成的视频是否能够呈现足够的故事性。
王长虎提到,Sora的生成视频效果确实比现在市面上的视频大模型要好,对于整个行业和爱诗科技而言,是挑战也是机会。“一方面,Sora采用了DiT(Diffusion Transformer)的技术路线,验证了该架构,其次,Sora出现之后整个AI视频生成行业会迎来新的爆发性机会,爱诗作为最早入局的公司之一,更有机会去追上并赶超Sora,在这个赛道取得一席之地。”
技术上,DiT(Diffusion Transformer)被认为是Sora采用的一种技术架构,该技术路线架构灵活度更高,且显著提升视频的生成质量。爱诗科技在创立之初就选择了这条路线。
目前,海外市场,爱诗科技国际版AI视频生成产品PixVerse已经正式运营,用户可以通过网页端,或者加入Discord-PixVerse服务器进行体验。今年3月,面向国内用户的爱诗大模型也已通过备案,现已开放内测,内测链接为https://aishiai.com/waitlist。
△国际版PixVerse网页端产品界面
产品方面,PixVerse主要支持文生视频、图生视频等主功能,在2023年10月,爱诗就把生成的视频内容做到了4K的分辨率。
以文生视频功能为例,PixVerse产品界面有Prompt 、Style、Aspect-ratio、Negative-prompt四个功能参数,其中Prompt 指的是需要输入的一段句子或关键词语;Style 决定了视频画面的风格;Aspect-ratio决定了视频的画幅比例;Negative-prompt 帮助规避视频中用户不想呈现的内容,用文字表达即可。
△PixVerse网页端视频生成界面
比如,输入Prompt:a little girl with bun hair wear flight attendant blue uniform stand in the plane cabin. she smile to the passanger,就可以得到下面这段4秒的视频。
PixVerse生成的视频
也有很多海外用户借助PixVerse和其他AI创作工具制作微电影、广告、动漫等,形成了新一代的AI工具流。
△截图自社交平台X
下面这则广告短片就是作者Michael Heina用Midjourney结合PixVerse生成的。
作者Michael Heina用Midjourney结合PixVerse生成的一则香水广告片
商业化发展层面,爱诗的思路是聚焦C端,通过技术平台,构建AI视频生成全价值链,提升内容生成、审核、分发及商业化各环节的效率,并最终实现AI Native视频产品应用闭环,满足各个行业和用户的需求。王长虎认为,OpenAI的商业节奏在初期会和之前GPT-4的路线一样,更注重完善整个大的技术体系,在模型侧发力,开放API,让用户和开发者自己进行产品开发同时,爱诗的发展也将不仅仅局限于技术,还会关注更多应用产品侧的机会。
根据海外流量检测网站similarweb.com,目前爱诗海外产品PixVerse月访问量增长迅猛,已经超过百万,用户群里中有影视、游戏、广告主、艺术创作者等各行各业的人。
△数据来自海外流量检测网站similarweb.com
眼下,创立已有一年的爱诗目前在团队扩张方面也相对谨慎,目前,爱诗公司团队有20多人,相比去年只多了十个人。
王长虎认为,团队是爱诗最核心的竞争力之一。爱诗目前的团队成员大部分都在早期就支撑了抖音、TikTok从0-1阶段,曾把AI视频技术广泛应用到了今日头条、抖音等字节跳动全线产品中,在视频技术领域有丰富的经验。“比如在技术层面,数据清洗、自动标注、模型加速等工程化问题,都是此前在字节做产品期间就面临过的难题,当时单我们团队就操盘了数万块GPU。”王长虎告诉36氪。
在他看来,这些能力都可以复用在爱诗的产品建设过程中,帮助公司在资源有限的情况下,更好产生ROI更高的算法和生成能力。此外,过去一年,团队已经在视频大模型的技术产品有一定的积累,也有助于公司在竞争中持续保持优势。
关于未来发展,王长虎透露,接下来 3——6 个月,爱诗最重要的目标是,技术上能够追平甚至赶超Sora,做出更好的产品,同时也会持续推进国内和海外产品的更新迭代,在2024年底做到大规模的C端应用落地。
王长虎认为:“未来,提供视频大模型的技术公司一定是少数,爱诗希望持续打磨技术层和产品层能力,做出国民级的AI原生视频产品应用,服务广大的C端用户。”
达晨财智谈到,此次投资爱诗主要看中团队的几个层面:
首先,创始人王长虎此前曾在微软亚洲研究院任职,发表过上百篇的顶会期刊论文,对计算机视频的前沿技术具有非常高的敏感度,且团队从0到1搭建字节的计算机视频底层算法模型,在模型、数据、算力上都经历过大规模的工程化检验,在视频大模型上的创业上有其他团队不具备的天然背景优势;
其次,团队执行力极强,公司模型按周迭代,同时有诸多的分叉版本在同时优化,公司很早就尝试用Transfomer替代Diffusion Model中的Unet的技术路线,模型效果也在逐步提升;
第三,团队是工程师文化的典型,管理扁平,每个人对技术都有追求和信仰。接下来,期待爱诗能打造出下一代端到端Super AI-Native的视频平台、产品、应用。成为国内最头部的多模态AI企业。
欢迎来聊~