Sora引发的人工智能行业震动还在席卷世界。这个在2月16日凌晨,由OpenAI发布的首个文生视频模型,可以用文字指令生成长达60秒的高清流畅视频,在生成视频长度、连贯性、多镜头切换方面具备显著优势,能力几乎“碾压”目前其他类似模型。
过去几天时间里,国内外科技、影视、社会等各界知名人士纷纷发表观点,惊叹技术的飞跃。惊讶之余,更多相关科技企业从业者开始寻找行业机会。天虎科技对话亚马逊云科技、考拉悠然、阿加犀科技、谛达诺科技、超有范儿科技、车包包、iFUN.COM等企业相关人士,他们怎么看待Sora,又将怎么办?
怎么看?
“重要里程碑事件”
“从目前Sora展现出来的能力来看,它可以成为理解和模拟现实世界的基础,而这一能力必将是实现通用人工智能的重要里程碑。”成都阿加犀智能科技有限公司CEO孙晓刚如是说。
成都考拉悠然科技有限公司CTO谢延认为,Sora模型提供了一种更加高效高质量的从自然语言到视频的生产方式,OpenAI也许希望通过生成的视频来模拟真实的世界,相比于之前的模型(GPT-4V,google gemini)在视觉生成方向大大地迈进了一步,持续为 AGI 的普及提供动力。但是这一切也只能算是一个新的开始,用模型理解真实的物理世界的工作才算刚刚起步。
孙晓刚也表示,在惊叹Sora展现出的能力的同时,也应该看到背后巨大的成本:据业内信息,OpenAI 每天生成约 1000 亿个单词,需要大量的 GPU进行训练计算。高昂成本使得绝大多数企业难以与之竞争,但Sora所带来的市场机会却是异常庞大的。
成都超有范儿科技有限公司CEO范明从技术方面进行观察,在他看来,单纯从这项技术来说未来内容生产的成本将极大降低,目前国内的各大模型厂家也会不断跟进这样的技术栈的突破,这些都会对于视频内容生成行业、数字孪生行业带来较大的冲击。
iFUN.COM 是一家 AI 算法公司,发行了多款游戏产品。iFUN.COM 大中华区CEO王瑜认为,Sora的出现对游戏行业是极大利好,能降低人力成本、加速游戏生产,例如未来在CG画面制作方面效率将大幅提高。不过她坚信人是不可替代的,“AI要具备游戏导演思维还有很长的路要走。”如何让Sora这类工具在游戏行业垂直应用,是该企业的AI 研究院正在与国内外相关高校持续研究的课题。
亚马逊云科技人工智能产品架构师李雪晴认为,Sora解决了目前主流模型常见的一些难以商业化的技术点,比如一致性,时序性等等,但也仍然有一些不足,比如对于真实物理作用的理解和生成。由此Sora的发布得到了各行各业的广泛关注,也带来了机会。
在李雪晴看来,Sora背后的机会有四,一是提供了一条在文生视频领域新的技术路径;二是Sora给予了用户在更多行业场景的想象空间;三是相关模态的想象空间也随之扩大,例如语音,3D等;四是人才,数据,算力三位一体打造了多模态领域的涌现能力,三者缺一不可。
怎么办?
“积极拥抱变化”
谢延认为,Sora模型的诞生,毋庸置疑会进一步加速大模型技术的应用落地,在原有的场景下进一步提升想象空间,特别是结合场景的多模态能力应用,利用大模型技术重塑原有的使用场景、使用体验,重塑产业链上下游。从技术发展的角度来说,今年会加强对物理世界的感知,做好现实世界到虚拟世界的连接。
据介绍,考拉悠然一直专注于多模态领域的技术研究,2023 年 11 月就正式发布了悠然多模态产业通用大模型,除了支持常见的NLP能力以外,在图片、视频理解方面提供业界领先的多模态理解能力。2024 年第一季度开始DT(diffusion transformer)模型的研究,目前已经具备初步的多模态生成能力,比如个性化图片,tts 等。Sora 模型的诞生,也更加坚定了公司的战略方向,预计在2024年第二季度推出真正的多模态理解和生成一体的产业模型,为企业客户持续赋能,加速AI普惠化。
阿加犀是AI产业链上聚焦智能物联网边缘计算的人工智能企业,也扮演着大模型搬运工的角色。孙晓刚说,阿加犀提供的大模型边缘端部署方案,一方面让大模型推理摆脱了对云端算力的依赖,不仅降低带宽、算力和能耗成本,并且也进一步保障了用户的隐私安全;另一方面,AI要真正实现无处不在,它必将是边缘端与云端计算协同共存的。让数据在更靠近终端用户的边缘端完成处理并输出结果,是提升生产效率和生活体验的有效手段和必由之路。
范明坦言,目前短期来看国内很难有厂家能够超越Sora这样大模型技术能力,“所以超有范儿这样的技术研发和应用公司,更重要的是首先了解和熟悉一线大厂的大模型技术逻辑,然后在自己的领域中深挖应用落脚点,才能有机会突破和赶超。”
车包包(北京)聚合技术有限责任公司创始人王茂认为,“基于大模型开发商业应用才是效益最大的,而且日后最占据话语权的,也是这些有能力把AI 商业化落地应用的人。”结合车包包所从事的行业数智化能力,AI还是一种数字智能化工具,可以理解为相应的行业有了一种“标准”。他表示,热爱自己职业和工作的、有创造力的专业人士们反而更轻松了,不必把有限的精力用在其他所谓资源的竞争消耗上。
无独有偶,李雪晴也认为,就像大语言模型一样,不可能有一个模型做所有的事,事实上垂直领域的大模型和应用更具备商业价值。因此这实际上是对GenAI创业者的利好,亚马逊云科技也准备好与客户一起探索并提供坚实的算力支持和丰富的合作资源。
此外,智能硬件企业也在积极拥抱大模型。四川谛达诺科技有限公司是一家将人工智能、大数据分析等技术应用于幼儿园“管、教、保”场景的高新技术企业,其自主研发的儿童健康智能机器人目前已落地全国65个城市,服务超过2000家幼儿园。“积极拥抱变化,今年计划让机器人接入大模型。”谛达诺科技科技CEO许波表示,将接入一些比较细分的大模型,推出更聪明的智能机器人,紧紧抓住教育和康养这“一小一老”场景,开发具象机器人/数字虚拟人等智能硬件+大模型产品。
△1月盘点:成都重要投融资事件及产业环境数据汇总
△虎探|1月在川活跃投资机构重要动态盘点
△盘点:1月落地成都的重大项目
△盘点:2023年成都科技创新创业投融资事件
△数说:成都科技创业投融资2023年特征剖析