一览科技罗江春：过去 30 年唯有 WWW/HTTP 可与ChatGPT相比

作者：科技IT发布时间：2023-03-01

2023 年开年以来，ChatGPT犹如心间振翅的蝴蝶，一刻不停地撩动着全体科技从业者，其强大的产品力和想象力在全球范围内快速形成高度共识。

有人将其称为人工智能领域的 iPhone 时刻，有人认为，这是 AGI（通用人工智能）发展的里程碑。

时间回到 5 年前，2018 年乌镇世界互联网大会，一览科技创始人&CEO 罗江春预言，未来5年内，机器生产视频内容RGC(Robotics Generated Content)就会实现，视频内容会更丰富，制作更简单，业态也会更灵活，优秀的视频生产商将会有更多机会。

回到当下，这个预言的准确性趋近于100%，罗江春口中的 RGC 与当下热议的 AIGC并无区别。

ChatGPT 出圈，智能对话式语言模型完成技术飞跃，大幅解放内容创作的效率生产力。除了文字以外，图片、音乐、甚至视频，多模态AIGC同样热闹非凡。

机器生产视频内容（RGC/AIGC）的春天真的到了吗？还有哪些关键挑战？3D 方向有哪些关键进展值得关注？

日前，一览科技创始人&CEO 罗江春受邀参加《聊聊 ChatGPT 火爆背后，大模型的底层逻辑和未来应用》主题对话，结合二十多年视频行业经验，就人工智能生产视频内容（RGC/AIGC）相关话题进行分享，并认为“过去 30 年唯有 WWW/HTTP 可与ChatGPT相比。”

罗江春

一览科技创始人 & CEO、风行在线创始人 & 董事

清华大学机械工程和企业管理双学士、美国莱斯大学计算机科学硕士。2005 年创办「风行在线」，开创中国互联网高清视频产业机会。创新研发全球首款「边下边看」视频软件以及 FSP 点播平台，推动风行成为全球领先的网络视频平台。2017 年创办一览科技，专注视频商用服务领域，并在人工智能应用方面投入海量研究和落地实践。2018 年曾在乌镇世界互联网大会上预测，AIGC 机器生成视频内容 5 年内会实现并成为主流。

以下为罗江春分享全文：

大家好，我是罗江春，很高兴能和大家见面，刚才我也一直在听各位的讨论，收获颇多。那么一览科技实际上做的是VaaS，什么叫VaaS呢？就是video as a service。

过去这些年，中国的视频产业主要是娱乐化的视频，但其实这个产业结构已经到天花板了，视频产业必然要向上探索ToB商用。一个商用视频的时代即将开启，未来视频会像水和电一样，变成一种基础设施，任何一个人、任何一个企业、组织都会需要基础的视频能力。所以，从2017、2018年开始，一览公司所有的力量都在集中做VaaS，video as a service。

做视频离不开内容，那么内容创作的主体逐渐从PGC慢慢转变到UGC ，随着人工智能的发展，又衍生出了新的趋势。在2018年乌镇世界互联网大会上，我预测未来5年内，机器生产视频内容RGC(Robotics Generated Content)就会实现，到时候视频内容会更丰富，制作更简单，业态也会更灵活，优秀的视频生产商将会有更多机会。

当时讲的RGC，其实和现在的AIGC是一个意思。AIGC现在确实已经到来了，所以在整个视频的应用上，我们是希望用人工智能技术在内容生产上做更多赋能。

1997年到2000年，我在美国莱斯大学就读人工智能AI专业。人工智能这个领域我一直在看，我们团队也一直在看。包括一览这个公司名字，取自一览无余，我们就是希望通过AI把视频里面每个元素、每个元数据、每个标签，每个内容都看清楚。那么其实我从GPT1.0 就开始关注，2.0 之后就不开源了，现在大家看到的ChatGPT确实是一个非常震撼的东西，对我们整个视频内容的生产有根本性的改变。当然，我们今天不要去贸然地预测，它会不会直接一步就能做到，输入一段文字就能把视频做出来，现在肯定是做不到的，还需要跟各种图片生成视频模型、视频生成视频模型、以及音频混音的工具去结合。

先不谈电影电视这种更复杂的视频产品，如果我们把一个三五分钟的短视频解构开，至少有这么几类基本的元素：第一，脚本相关，从故事大纲到脚本等；第二，素材，包括图片、镜头等；第三，我们会把音轨单独拎出来，音轨包含了配音，配乐，特效等声音相关的一系列东西。当然，最后你还需要剪辑拼接在一起。这是一个视频制作的基本原理，那么AIGC生成视频都要从这几方面去下手，无论从脚本的智能化的生成，到是否有海量的、可应用的、高质量的素材库，以及音频也是一样。最后还涉及到拼接剪辑。这些方面涉及的难点在AI 研究领域大家其实都比较明确。比如从静态到动态的模拟，情绪的匹配，以及3D建模。

据说OpenAI将要发布基于视频的大模型的应用，我们也很期待，为什么期待呢？这里有一个很核心的原因。智能手机的普及，使得能在抖音、快手、tiktok这样的视频APP上做内容的人越来越多，实际上降低了内容生产的门槛。如果AIGC在 video这个领域能够成为现实，那门槛又进一步降低。不管是用prompt 还是其他提示语言，更多的人能更方便地做出更好的视频的话，视频产业未来会跟游戏一样非常吸引人，会产生丰富多样的video，而且生产成本极低。

当然，就视频应用这个领域，我认为不应该再去做这种底层的通用大模型。不管我们国内有几个团队去做这件事，但肯定不是在垂直领域做，而是应该在大模型的基础上去提升我们的效能，在垂直的AIGC这个领域上真正地做出有效的应用，有效的内容。

关于创业公司是否要投身大模型，我一直有个观点，包括这几天跟很多大基金的老大沟通的时候也在反复说，这种基础能力的大模型，一般创业公司可能做不了。我们先不说情怀，先不说理想主义，我们先说本身的能力，就是往里面投入的资金和人才密度的要求是很高的。而且关键是这些做基础设施的人，咱们回顾过去二十年、三十年，真正在互联网上做基础设施的人往往是不赚钱的，都是一群非常理想主义的人在支撑做这个事儿，真正赚到钱的人是在基础设施之上做应用的人。

那么在这波大的浪潮下，创业公司现在需要做什么？

我觉得应该马上调整，在GPT这样的大模型上面All in去创造应用，创造内容。顺便说一句我们目前在做的事。去年一览推出了一个给MCN 机构和视频创作者做内容创作赋能的工具，叫一览运营宝。还没有启动大规模的推广，但是已经有上千家专业的创作机构入驻使用，我们陆续在添加很多基于GPT的AIGC能力应用，比如说用 AI帮他们写脚本、做图片素材等等。随着整个工具的不断进化，就能把AIGC 完全赋能给创作者，做出更好的内容，更好的视频。

现在其实是一个新时代的开启，有点类似94年、95年的时候，是一个荒芜的时代，同样一片混沌。这个时候我们应该抓紧在上面建新浪，建雅虎，建 Google，建 eBay等等，不管你想做客服系统，还是想做教育，这个时候都应该全力以赴在GPT或者其他大模型的基础上做内容、做应用。上周我见了一堆教育的公司，都准备重新再冲进去，把以前标注的素材重新再生成基于AI的教培。包括视频行业，像原来我们说PGC、UGC，现在是AIGC，这都是我说的应用和内容。

有很多人说ChatGPT像iPhone，像搜索引擎，我觉得都不太对，搜索引擎、iPhone其实只是半个时代。对我来说，在我从业二十多年的时间里，只看见过一个东西可以跟它相比，就是真正开启整个互联网时代的HTTP和WWW。

为什么可以这样相比呢？

因为HTTP和WWW改变了人们获取信息的方式。你可以通过一台电脑，不管通过浏览器Netscape还是IE，你可以得到信息，得到支持，得到商品信息可以购买等等。但是ChatGPT出来以后，跟你对话的不再是一个机器，你获取信息的方式不再是单向的。你是在跟一个人，跟一个专家，甚至跟一个God对话。我不认为他只是大学生的水平，刚才我也听了大家在这个问题上的讨论，我觉得这取决于你怎么和他沟通，如果沟通得对，他表现出来的能力还是非常强大的。

至于GPT这样的大模型，未来的商业以及背后的技术会如何演进。抛开自身业务，抛开内容，抛开AIGC，抛开视频来说。刚才我反复提到prompt engineer的这个职业，这个职业就像念咒语一样，你不断地去调各种词，用不同的模型，得到不同的结果，就像一个念咒师。所以，如果让我选一个video 之外的方向，我觉得办一个prompt engineer的学校或者培训机构会很有意思，真的去培养出来数以千万计的prompt engineer去改变世界，会是一件很有意义的事情。

最后一个问题，对于硅基生命和碳基生命，未来的走向会是怎么样的。刚才评论区有人引用了马斯克的一个观点，“某种程度而言，人类作为碳基生命就是一种生物引导程序，或者说是一段非常小的代码，其使命是为了引出一种超级数字生物，硅基生命。”

我有一些不同的观点，我认为碳基生命更聪明，当然这个更聪明不一定是全部人，可能只是少数人，少数顶尖的工程师和科学家，他们是长在硅基生命之上的。所以硅基生命是否能超越碳基生命，要取决于真正能控制这些硅基生命的科学家和工程师，他能通过硅基生命学到什么。OpenAI 近期也发布了针对安全性、管理、规则、应用的一系列文件，虽然单个人类可能比不上 OpenAI的GPT大模型，但实际上这个东西还是人造出来的。那么不管是我们还是那些顶尖的科学家和工程师，还是要去学习它会有什么样的能力，那么碳基生命的能力就始终可以建立在硅基的基础之上。

当然，我第一次见到GPT的感觉其实是“This is God”，他无所不知。虽然他在一本正经地胡说八道，但是当时我真的觉得他无所不知。那也许我们碳基生命又生活在另外一个God的管控之下，犹未可知。这可能是一个哲学的问题，留给大家去探讨思考。