目标3-6个月赶超Sora，「爱诗科技」获达晨亿级A1轮融资 | 36氪首发

作者：武静静Jane发布时间：2024-03-11

文｜武静静

编辑｜邓咏仪

36氪获悉，视频大模型公司「爱诗科技」近日已完成亿级A1轮融资，本轮融资由达晨财智独家投资。光源资本担任独家财务顾问。公司称，资金将主要用于底层视频大模型的技术研发及团队搭建等方面。

2024年2月，OpenAI发布Sora之后，在视频大模型行业掀起了新的风浪，爱诗科技也因此受到广泛关注。

爱诗科技由字节跳动前视觉技术负责人王长虎创办于2023年4月，专注于打造全球顶尖的AI视频生成模型及应用，并服务于营销、广告、游戏等内容创作行业。

王长虎是人工智能领域的专家，也有丰富的产品经验。他博士毕业于中国科学技术大学，2009年毕业后，担任过微软亚洲研究院主管研究员，曾在新加坡国立大学担任研究工程师。2017年初，王长虎加入字节跳动，任人工智能实验室总监、集团视觉技术负责人，搭建了视觉技术团队和视觉算法平台和业务中台，并支撑了抖音和TikTok等产品从0到1的建设和发展。

这是王长虎第一次创业，他告诉36氪：“我一直有一个创业的情结，想要尝试从0开始，孵化技术和产品，用人工智能影响和帮助尽可能多的企业和用户。UGC向AIGC转变过程中存在大量的机会，我们想抓住这个机会。”

眼下，整个视频行业被Sora的惊艳亮相炒的风风火火，有人把Sora的出现形容为视频生成领域的ChatGPT时刻，OpenAI和其他公司的差距正在进一步拉大，创业公司很难出头。

王长虎持有相反的观点，他认为，目前Sora的技术发展相当于在GPT2和GPT3之间，还没到GPT-4的水平，留给市场的空间很大。

在他看来，视频模型的生成能力好坏体现在三个维度：第一，准确性，即判断生成的视频内容是否和输入的prompt或图片匹配，符合用户预期；第二，一致性，即生成的视频中的主体、背景和运动是否有连贯性，是否符合真实世界的物理规律；第三，信息丰富度，即在一段时间内生成的视频是否能够呈现足够的故事性。

王长虎提到，Sora的生成视频效果确实比现在市面上的视频大模型要好，对于整个行业和爱诗科技而言，是挑战也是机会。“一方面，Sora采用了DiT（Diffusion Transformer）的技术路线，验证了该架构，其次，Sora出现之后整个AI视频生成行业会迎来新的爆发性机会，爱诗作为最早入局的公司之一，更有机会去追上并赶超Sora，在这个赛道取得一席之地。”

技术上，DiT（Diffusion Transformer）被认为是Sora采用的一种技术架构，该技术路线架构灵活度更高，且显著提升视频的生成质量。爱诗科技在创立之初就选择了这条路线。

目前，海外市场，爱诗科技国际版AI视频生成产品PixVerse已经正式运营，用户可以通过网页端，或者加入Discord-PixVerse服务器进行体验。今年3月，面向国内用户的爱诗大模型也已通过备案，现已开放内测，内测链接为https://aishiai.com/waitlist。

△国际版PixVerse网页端产品界面

产品方面，PixVerse主要支持文生视频、图生视频等主功能，在2023年10月，爱诗就把生成的视频内容做到了4K的分辨率。

以文生视频功能为例，PixVerse产品界面有Prompt 、Style、Aspect-ratio、Negative-prompt四个功能参数，其中Prompt 指的是需要输入的一段句子或关键词语；Style 决定了视频画面的风格;Aspect-ratio决定了视频的画幅比例；Negative-prompt 帮助规避视频中用户不想呈现的内容，用文字表达即可。

△PixVerse网页端视频生成界面

比如，输入Prompt：a little girl with bun hair wear flight attendant blue uniform stand in the plane cabin. she smile to the passanger，就可以得到下面这段4秒的视频。

PixVerse生成的视频

也有很多海外用户借助PixVerse和其他AI创作工具制作微电影、广告、动漫等，形成了新一代的AI工具流。

△截图自社交平台X

下面这则广告短片就是作者Michael Heina用Midjourney结合PixVerse生成的。

作者Michael Heina用Midjourney结合PixVerse生成的一则香水广告片

商业化发展层面，爱诗的思路是聚焦C端，通过技术平台，构建AI视频生成全价值链，提升内容生成、审核、分发及商业化各环节的效率，并最终实现AI Native视频产品应用闭环，满足各个行业和用户的需求。王长虎认为，OpenAI的商业节奏在初期会和之前GPT-4的路线一样，更注重完善整个大的技术体系，在模型侧发力，开放API，让用户和开发者自己进行产品开发同时，爱诗的发展也将不仅仅局限于技术，还会关注更多应用产品侧的机会。

根据海外流量检测网站similarweb.com，目前爱诗海外产品PixVerse月访问量增长迅猛，已经超过百万，用户群里中有影视、游戏、广告主、艺术创作者等各行各业的人。

△数据来自海外流量检测网站similarweb.com

眼下，创立已有一年的爱诗目前在团队扩张方面也相对谨慎，目前，爱诗公司团队有20多人，相比去年只多了十个人。

王长虎认为，团队是爱诗最核心的竞争力之一。爱诗目前的团队成员大部分都在早期就支撑了抖音、TikTok从0-1阶段，曾把AI视频技术广泛应用到了今日头条、抖音等字节跳动全线产品中，在视频技术领域有丰富的经验。“比如在技术层面，数据清洗、自动标注、模型加速等工程化问题，都是此前在字节做产品期间就面临过的难题，当时单我们团队就操盘了数万块GPU。”王长虎告诉36氪。

在他看来，这些能力都可以复用在爱诗的产品建设过程中，帮助公司在资源有限的情况下，更好产生ROI更高的算法和生成能力。此外，过去一年，团队已经在视频大模型的技术产品有一定的积累，也有助于公司在竞争中持续保持优势。

关于未来发展，王长虎透露，接下来 3——6 个月，爱诗最重要的目标是，技术上能够追平甚至赶超Sora，做出更好的产品，同时也会持续推进国内和海外产品的更新迭代，在2024年底做到大规模的C端应用落地。

王长虎认为：“未来，提供视频大模型的技术公司一定是少数，爱诗希望持续打磨技术层和产品层能力，做出国民级的AI原生视频产品应用，服务广大的C端用户。”

达晨财智谈到，此次投资爱诗主要看中团队的几个层面：

首先，创始人王长虎此前曾在微软亚洲研究院任职，发表过上百篇的顶会期刊论文，对计算机视频的前沿技术具有非常高的敏感度，且团队从0到1搭建字节的计算机视频底层算法模型，在模型、数据、算力上都经历过大规模的工程化检验，在视频大模型上的创业上有其他团队不具备的天然背景优势；

其次，团队执行力极强，公司模型按周迭代，同时有诸多的分叉版本在同时优化，公司很早就尝试用Transfomer替代Diffusion Model中的Unet的技术路线，模型效果也在逐步提升；

第三，团队是工程师文化的典型，管理扁平，每个人对技术都有追求和信仰。接下来，期待爱诗能打造出下一代端到端Super AI-Native的视频平台、产品、应用。成为国内最头部的多模态AI企业。

欢迎来聊～