2023 年开年以来,ChatGPT犹如心间振翅的蝴蝶,一刻不停地撩动着全体科技从业者,其强大的产品力和想象力在全球范围内快速形成高度共识。
有人将其称为人工智能领域的 iPhone 时刻,有人认为,这是 AGI(通用人工智能)发展的里程碑。
时间回到 5 年前,2018 年乌镇世界互联网大会,一览科技创始人&CEO 罗江春预言,未来5年内,机器生产视频内容RGC(Robotics Generated Content)就会实现,视频内容会更丰富,制作更简单,业态也会更灵活,优秀的视频生产商将会有更多机会。
回到当下,这个预言的准确性趋近于100%,罗江春口中的 RGC 与当下热议的 AIGC并无区别。
ChatGPT 出圈,智能对话式语言模型完成技术飞跃,大幅解放内容创作的效率生产力。除了文字以外,图片、音乐、甚至视频,多模态AIGC同样热闹非凡。
机器生产视频内容(RGC/AIGC)的春天真的到了吗?还有哪些关键挑战?3D 方向有哪些关键进展值得关注?
日前,一览科技创始人&CEO 罗江春受邀参加《聊聊 ChatGPT 火爆背后,大模型的底层逻辑和未来应用》主题对话,结合二十多年视频行业经验,就人工智能生产视频内容(RGC/AIGC)相关话题进行分享,并认为“过去 30 年唯有 WWW/HTTP 可与ChatGPT相比。”
罗江春
一览科技创始人 & CEO、风行在线创始人 & 董事
清华大学机械工程和企业管理双学士、美国莱斯大学计算机科学硕士。2005 年创办「风行在线」,开创中国互联网高清视频产业机会。创新研发全球首款「边下边看」视频软件以及 FSP 点播平台,推动风行成为全球领先的网络视频平台。2017 年创办一览科技,专注视频商用服务领域,并在人工智能应用方面投入海量研究和落地实践。2018 年曾在乌镇世界互联网大会上预测,AIGC 机器生成视频内容 5 年内会实现并成为主流。
以下为罗江春分享全文:
大家好,我是罗江春,很高兴能和大家见面,刚才我也一直在听各位的讨论,收获颇多。那么一览科技实际上做的是VaaS,什么叫VaaS呢?就是video as a service。
过去这些年,中国的视频产业主要是娱乐化的视频,但其实这个产业结构已经到天花板了,视频产业必然要向上探索ToB商用。一个商用视频的时代即将开启,未来视频会像水和电一样,变成一种基础设施,任何一个人、任何一个企业、组织都会需要基础的视频能力。所以,从2017、2018年开始,一览公司所有的力量都在集中做VaaS,video as a service。
做视频离不开内容,那么内容创作的主体逐渐从PGC慢慢转变到UGC ,随着人工智能的发展,又衍生出了新的趋势。在2018年乌镇世界互联网大会上,我预测未来5年内,机器生产视频内容RGC(Robotics Generated Content)就会实现,到时候视频内容会更丰富,制作更简单,业态也会更灵活,优秀的视频生产商将会有更多机会。
当时讲的RGC,其实和现在的AIGC是一个意思。AIGC现在确实已经到来了,所以在整个视频的应用上,我们是希望用人工智能技术在内容生产上做更多赋能。
1997年到2000年,我在美国莱斯大学就读人工智能AI专业。人工智能这个领域我一直在看,我们团队也一直在看。包括一览这个公司名字,取自一览无余,我们就是希望通过AI把视频里面每个元素、每个元数据、每个标签,每个内容都看清楚。那么其实我从GPT1.0 就开始关注,2.0 之后就不开源了,现在大家看到的ChatGPT确实是一个非常震撼的东西,对我们整个视频内容的生产有根本性的改变。当然,我们今天不要去贸然地预测,它会不会直接一步就能做到,输入一段文字就能把视频做出来,现在肯定是做不到的,还需要跟各种图片生成视频模型、视频生成视频模型、以及音频混音的工具去结合。
先不谈电影电视这种更复杂的视频产品,如果我们把一个三五分钟的短视频解构开,至少有这么几类基本的元素:第一,脚本相关,从故事大纲到脚本等;第二,素材,包括图片、镜头等;第三,我们会把音轨单独拎出来,音轨包含了配音,配乐,特效等声音相关的一系列东西。当然,最后你还需要剪辑拼接在一起。这是一个视频制作的基本原理,那么AIGC生成视频都要从这几方面去下手,无论从脚本的智能化的生成,到是否有海量的、可应用的、高质量的素材库,以及音频也是一样。最后还涉及到拼接剪辑。这些方面涉及的难点在AI 研究领域大家其实都比较明确。比如从静态到动态的模拟,情绪的匹配,以及3D建模。
据说OpenAI将要发布基于视频的大模型的应用,我们也很期待,为什么期待呢?这里有一个很核心的原因。智能手机的普及,使得能在抖音、快手、tiktok这样的视频APP上做内容的人越来越多,实际上降低了内容生产的门槛。如果AIGC在 video这个领域能够成为现实,那门槛又进一步降低。不管是用prompt 还是其他提示语言,更多的人能更方便地做出更好的视频的话,视频产业未来会跟游戏一样非常吸引人,会产生丰富多样的video,而且生产成本极低。
当然,就视频应用这个领域,我认为不应该再去做这种底层的通用大模型。不管我们国内有几个团队去做这件事,但肯定不是在垂直领域做,而是应该在大模型的基础上去提升我们的效能,在垂直的AIGC这个领域上真正地做出有效的应用,有效的内容。
关于创业公司是否要投身大模型,我一直有个观点,包括这几天跟很多大基金的老大沟通的时候也在反复说,这种基础能力的大模型,一般创业公司可能做不了。我们先不说情怀,先不说理想主义,我们先说本身的能力,就是往里面投入的资金和人才密度的要求是很高的。而且关键是这些做基础设施的人,咱们回顾过去二十年、三十年,真正在互联网上做基础设施的人往往是不赚钱的,都是一群非常理想主义的人在支撑做这个事儿,真正赚到钱的人是在基础设施之上做应用的人。
那么在这波大的浪潮下,创业公司现在需要做什么?
我觉得应该马上调整, 在GPT这样的大模型上面All in去创造应用,创造内容。顺便说一句我们目前在做的事。去年一览推出了一个给MCN 机构和视频创作者做内容创作赋能的工具,叫一览运营宝。还没有启动大规模的推广,但是已经有上千家专业的创作机构入驻使用,我们陆续在添加很多基于GPT的AIGC能力应用,比如说用 AI帮他们写脚本、做图片素材等等。随着整个工具的不断进化,就能把AIGC 完全赋能给创作者,做出更好的内容,更好的视频。
现在其实是一个新时代的开启,有点类似94年、95年的时候, 是一个荒芜的时代,同样一片混沌。这个时候我们应该抓紧在上面建新浪,建雅虎,建 Google,建 eBay等等,不管你想做客服系统,还是想做教育,这个时候都应该全力以赴在GPT或者其他大模型的基础上做内容、做应用。上周我见了一堆教育的公司,都准备重新再冲进去,把以前标注的素材重新再生成基于AI的教培。包括视频行业,像原来我们说PGC、UGC,现在是AIGC,这都是我说的应用和内容。
有很多人说ChatGPT像iPhone,像搜索引擎,我觉得都不太对,搜索引擎、iPhone其实只是半个时代。对我来说,在我从业二十多年的时间里,只看见过一个东西可以跟它相比,就是真正开启整个互联网时代的HTTP和WWW。
为什么可以这样相比呢?
因为HTTP和WWW改变了人们获取信息的方式。你可以通过一台电脑,不管通过浏览器Netscape还是IE,你可以得到信息,得到支持,得到商品信息可以购买等等。但是ChatGPT出来以后,跟你对话的不再是一个机器,你获取信息的方式不再是单向的。你是在跟一个人,跟一个专家,甚至跟一个God对话。我不认为他只是大学生的水平,刚才我也听了大家在这个问题上的讨论,我觉得这取决于你怎么和他沟通,如果沟通得对,他表现出来的能力还是非常强大的。
至于GPT这样的大模型,未来的商业以及背后的技术会如何演进。抛开自身业务,抛开内容,抛开AIGC,抛开视频来说。刚才我反复提到prompt engineer的这个职业,这个职业就像念咒语一样,你不断地去调各种词,用不同的模型,得到不同的结果,就像一个念咒师。所以,如果让我选一个video 之外的方向,我觉得办一个prompt engineer的学校或者培训机构会很有意思,真的去培养出来数以千万计的prompt engineer去改变世界,会是一件很有意义的事情。
最后一个问题,对于硅基生命和碳基生命,未来的走向会是怎么样的。 刚才评论区有人引用了马斯克的一个观点,“某种程度而言,人类作为碳基生命就是一种生物引导程序,或者说是一段非常小的代码,其使命是为了引出一种超级数字生物,硅基生命。”
我有一些不同的观点,我认为碳基生命更聪明,当然这个更聪明不一定是全部人,可能只是少数人,少数顶尖的工程师和科学家,他们是长在硅基生命之上的。所以硅基生命是否能超越碳基生命,要取决于真正能控制这些硅基生命的科学家和工程师,他能通过硅基生命学到什么。OpenAI 近期也发布了针对安全性、管理、规则、应用的一系列文件,虽然单个人类可能比不上 OpenAI的GPT大模型,但实际上这个东西还是人造出来的。那么不管是我们还是那些顶尖的科学家和工程师,还是要去学习它会有什么样的能力,那么碳基生命的能力就始终可以建立在硅基的基础之上。
当然,我第一次见到GPT的感觉其实是“This is God”,他无所不知。虽然他在一本正经地胡说八道,但是当时我真的觉得他无所不知。那也许我们碳基生命又生活在另外一个God的管控之下,犹未可知。这可能是一个哲学的问题,留给大家去探讨思考。
上海卓岚物联网 2024-11-15
莱森光学LiSenOptics 2024-11-15
东莞大忠电子 2024-11-15