当前位置:首页|资讯|Sora|ChatGPT|教育

Sora降临,我们已站在AI时代的大门前

作者:微型计算机杂志发布时间:2024-03-22

原标题:Sora降临,我们已站在AI时代的大门前

农历春节期间,OpenAI发布了首个文生视频模型Sora,将AI时代的话题推向新一轮高潮。看着那60秒由人工智能生成的高清视频,狂喜者有之,担忧者有之,变道者有之,反思者亦有之……时代大幕已经缓缓拉开了一道缝隙,台下观众陆续入场,舞台上则上演着争抢C位的戏码……

Sora横空出世

2月中旬,OpenAI的首个文生视频(Text-Video)模型Sora在全球各大社交平台上引起广泛热议。OpenAI官网公布的40余个视频案例,显示了Sora模型不仅可以根据用户输入的关键词或图片,生成长达1分钟的1080p视频,还能对既有视频进行智能扩展,自动填充视频内容。对绝大多数普通人而言,第一次看到Sora生成视频所感受到的震撼,是无以言表的。以东京街头的文生视频为例,视频中时尚女性的穿着、走路的体态、背景闪耀霓虹灯光的建筑,乃至路面积水反射的倒影,几乎就像是实景拍摄一样。而在业内人士看来,Sora模型代表了人工智能在视频内容创作领域的重大突破,也预示着视频制作和内容创作方式的一场变革。

从原理上讲,OpenAI的Sora模型与目前业内既有的文生视频在技术流程方面是一致的,仍是基于LLM大规模预训练模型、Diffusion扩散模型和Transformer架构。简单点来说,就是先通过语义分析关键词,将人工输入或自主生成的图片/视频进行网格化压缩,接着将其分解成为视频数据的基本单位—Spatio-Temporal Patches时空补丁,继而通过扩散模型的噪声消除推理,逐步生成高质量的视频帧,最后通过Transformer架构处理时空补丁之间的关系,从而最终生成高质量的视频内容。

▲Sora模型生成的东京街头视频

尽管在官方案例中,Sora生成的视频依然存在一些瑕疵,比如五只幼狼嬉戏时个别幼狼会凭空消失又出现,东京街头女性走路时的双腿错位,吹蜡烛火苗却岿然不动等画面,多少还是有些让人啼笑皆非。但相比Runway Gen2、Pika等既有文生视频模型,Sora不仅突破了前者10秒左右的连贯性局限,展示了更精细的画质,而且还具备多角度多镜头维持一致性的能力,运动镜头的运镜能力,以及对于真实世界复杂场景和物理逻辑的理解能力,让AI生成视频获得了更丰富的想象力。

和当初ChatGPT一样,Sora模型一经公布就让人联想到“AI取代人类”的话题,而且Sora模型可以应用的领域同样十分宽泛,包括但不限于虚拟现实、视频创作、广告营销、教育培训以及游戏开发等多个行业和专业领域。还有影视行业专业人士指出,即便是当前仍有瑕疵的Sora版本,也能为前期工作提供样本参考。而一旦该模型进一步成熟之后,将会使得视频拍摄和后期制作的时间与成本大幅缩减,让非专业人士也能制作出精良的短视频、动画短片或是教案视频,甚至可以极大促进游戏产业和元宇宙领域的蓬勃发展,创造更真实、沉浸感更强的虚拟世界。

▲Sora模型简要技术流程示意图

Sora发布后,最新一轮由风投公司Thrive Capital牵头融资中,OpenAI的估值有望超过800亿美元。而在此前ChatGPT发布之后,这一数字也不过大约为290亿美元,也就是说OpenAI的估值已经飙升了175%之多。800亿美元也意味着OpenAI将成为全球市值(估值)第三高的科技初创公司,仅次于字节跳动(2250亿美元)和SpaceX(1500亿美元)。

AI时代大幕微启

春节期间Sora模型的横空出世,让人工智能这一话题再度甚嚣尘上,也再次证实了人类科技文明的下一个时代极有可能就是AI时代。实际上2023年ChatGPT的爆发,已经催生了IT业界的广泛共识,《微型计算机》密切关注的手机和PC领域,在去年下半年就开始猛烈发力AI大模型。华为的盘古大模型、vivo的蓝心大模型、OPPO的安第斯大模型先后登陆各家品牌最新旗舰机,已经与各家语音助手融合的形式,为手机用户提供AI应用服务。高通第三代骁龙8和天玑9300平台,让手机端侧实现了对70亿~130亿大模型的支持。去年年底,英特尔推出了面向移动市场的酷睿Ultra处理器,并宣布将与主流OEM伙伴推出230余款机型,开启AI PC新纪元。紧接着,AMD锐龙8000G系列作为全球首款桌面AI处理器登场,代表着桌面PC平台正式进入了AI时代。

各家厂商的一系列举措并非是操弄什么噱头,而是实打实地战略实施。除夕当晚,OPPO通过春晚广告“史上最短发布会”宣布正式进入AI手机时代。接着在返工首日的2月18日,OPPO的创始人兼CEO陈明永发出一封主题为“开启AI手机新时代”的内部信,表示“未来五年,AI对手机行业的影响,完全可以比肩当年智能手机替代功能机。”两天后,OPPO召开AI战略发布会,首次公布1+N智能体生态战略,以OPPO AI超级智能体和AI Pro智能体开发平台为核心组成部分,以满足AI手机时代下用户对新一代智慧服务体验不断增长的个性化需求,携手共建AI手机生态;并宣布成立AI中心,整合全球研发资源,举全公司之力“拥抱AI”。

▲OPPO公开了自家的1+N智能体生态战略

就海外品牌而言,三星也在Galaxy S24系列手机中集成了全新Galaxy AI,苹果则被认为将在今年WWDC之际迎来“生死局”。据目前海外多位跟踪苹果情报的分析师爆料和预测,苹果iPhone 16将会搭载更强大的AI芯片,以支持更复杂的AIGI功能。苹果公司负责软件工程的副总裁克雷格·费德里吉已经要求团队在今年的iOS版本升级中“开发尽可能多的AI功能”,爆料称苹果计划将其称为“iPhone 16年历史上最重大的更新之一”,而且有意思的是,其中的部分AI功能可能和三星Galaxy S24系列手机发布会上的演示高度重合。

不管怎么说,2024年将会是AI快速进阶和渗透的一年,而且随着AI手机和AI PC战略的加速,越来越多的PC和手机设备将以人工智能作为核心特色,处于下行周期的市场也亟须AI应用作为新的驱动力。

真心话与大冒险

AI时代的大幕已被拉开了一道缝隙,让我们得以窥见未来的一角,但对于各家厂商而言,面对变局,能否抓紧时代的机遇又或者能否存活下来,皆是未知之数。

以手机为例,在AI战略发布会上,OPPO定义了AI手机的四大特征:一是要能够高效地利用计算资源,以满足AI时代下生成式AI的计算需要;二是要能敏锐地感知真实世界,了解用户与环境的复杂信息;三是拥有强大的自学习能力;四是还应具备充沛的创作能力,为用户提供持续的灵感与知识支持。IDC中国区总裁霍锦洁在此次发布会上表示,到2027年中国市场AI手机份额占比将超过50%。而这对二三线手机品牌来说,这也是一场“生死局”。

和过去不同,AI手机对于厂商自身研发实力提出了更高的要求。除了与上游移动平台芯片厂商的深度合作以外,手机厂商自身对于端侧模型库、高效异构计算架构和AI算力底座的开发,同样重要。影像手机早期那种通过对芯片、传感器和第三方算法采购和组装的玩法,早已被时代淘汰。也正是这些年在影像领域的经验,使得“华米OV”这样的头部品牌选择提早布局,抢先开发自己的AI大模型。

2月18日,魅族董事长兼CEO沈子瑜在“聊聊真心话”的6分钟视频中公布:如今随着全球手机市场换机周期延长、消费创新空间有限、行业恶性竞争加剧,消费者平均51个月才换机……手机行业正面临着前所未有的挑战,因此魅族决定在All in AI的同时,将停止传统智能手机新项目的开发,全力投入“明日设备”AI For New Generations。按照魅族的规划,将会在未来三年推出6款AI硬件产品,构建完整的AI生态。这次魅族“All in AI”的转型,算得上该品牌继放弃MP3业务转型手机之后最重要的战略调整。

▲魅族的“All in AI”战略计划

几乎同时,行业大鳄、软银集团创始人孙正义宣布,计划筹措1000亿美元成立一家AI芯片公司,企业项目代号为“Izanagi”,由孙正义直接领导该项目,竞争目标直指英伟达。而就在两天前,软银刚刚和英伟达组建AI产业联盟,期望通过AI技术提升无线服务。此前,孙正义不止一次地表示自己是人工智能的忠实信徒,ARM是人工智能革命的核心受益者。此次孙正义筹资项目如获成功,将成为ChatGPT问世以来人工智能领域最大的一笔投资。截至目前,全球已有超过18家AI芯片设计的初创公司,包括Cerebras、Graphcore、壁仞科技、摩尔线程、d-Matrix等,融资总额已超过60亿美元,这些企业整体估值共计超过250亿美元。果然,有“真心话”的地方,必有“大冒险”紧紧相随。

▲中国手机厂商在预训练大模型领域的现状

文章最后,想和大家再聊聊中国在AI领域与全球顶尖水平的差距。在Sora问世后,国内有不少类似“看清差距,反思自己”的论调。但如果真的了解文生视频模型的技术原理,就会发现Sora在本质上也不过是因为OpenAI得天独厚的资源条件下,实现了“力大砖飞”的成功。如上海交大计算机科学与工程系教授赵海所说,“Sora的问世不能算技术革命,而是工程实践的成功。”

目前国内的AI大模型相比全球顶尖水准,的确普遍存在着约一代半的差距,但这主要是受限于我们自身起步晚,以及AI算力芯片。所以不必妄自菲薄,对于中国人而言,如果实现了从0到1,那么从1走到100就不再遥远。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1