2024开年,OpenAI就给了科技圈一个惊喜——文生视频大模型Sora于2月16日“横空出世”,它能直接以文生图,并将图片转为生动逼真的动态视频。作为科技圈“大佬”,第十四届全国政协委员、360集团创始人周鸿祎多次针对该大模型发表看法。全国两会期间,Sora依然是绕不开的热门话题之一。
周鸿祎接受南都记者采访
在接受南都记者采访时,周鸿祎表示,Sora最令人震撼的是制作出了逼真的、符合人们认知常识的内容,这意味着它能深入学习和了解这个世界很多元素之间的互动关系。他推测,此后国内也会有多家企业推出类似文生视频工具,很可能再次出现“百模大战”的情形。
谈及Sora过于逼真的视频表现所引发的关于伪造和传播虚假内容的担忧,周鸿祎表示,其可能带来新一轮心理战、舆论战、公关战等。要应对这些风险,除了加强监管,也要运用合适的技术手段。比如,在Sora生成的视频里加入不可更改、不可替换的内部水印,再设计一种配合读水印的程序,经查询就可得知是否为有水印的生成视频。这些问题未得到解决之前,Sora技术不可能“放出来”。
发展垂直化企业化大模型能更好满足企业需求
南都:今年两会,你带来一份关于深化人工智能多场景应用,支持大模型向垂直化、产业化方向发展的提案。2024年被认为是大模型应用场景元年,我国大模型发展之路该走向何方?
周鸿祎:现在企业对AI普遍都很向往,但是不知道从何切入,尤其非IT企业对AI还是比较陌生。中国在通用大模型核心技术上赶超美国还需要时间,但在大模型应用方面,中国完全可以走出一条具有中国特色的大模型发展之路。
我在今年的提案中提到,通用大模型在企业级场景中无法直接应用,发展垂直化和企业化的大模型可以更好地满足企业的个性化需求,提高生产效率和服务质量,促进产业升级。
南都:具体应该怎么做?
周鸿祎:我认为应该分三步走。
一是场景。大模型在垂直领域大有可为,建议政府、央国企率先提供更多应用场景,聚焦“小切口,大纵深”,推动大模型垂直化、产业化落地。企业用大模型不能冒进,而是要用 AI 逐步改造业务,循序渐进,积小胜为大胜。在实践中要拆分场景具体分析,在业务流程上找准切入点,选择与大模型成熟能力匹配的业务环节切入。切入点虽小,但纵深推进,对业务影响很大,改造收效更大。
二是知识。企业在做AI之前,要先解决好基础设施问题,其中最重要的就是在定制AI前,做好知识管理,将企业大数据平台升级为企业知识平台。大模型的数据、知识只是人类知识的冰山一角,企业还有大量的“暗知识”,如战略规划、产品设计图等企业具有的独特知识,只存在于特定企业中,在互联网上难以找到。建议鼓励企业构建知识平台,将“暗知识”汇总起来,打造企业专属知识库,做好管理。在此基础上,通过垂直训练,深入企业级场景,满足企业需求。
三是业务融合。建议鼓励和引导企业将大模型与数字化业务系统深度结合,同业务流程相结合,充分发挥大模型价值。大模型像发动机,不是用来秀的,而是要与业务相结合,特别是传统制造业,大模型是推动数转智改的利器。
人不会被AI淘汰,但可能被用AI的人淘汰
南都:近日,OpenAI发布的Sora模型引发热议,你也多次谈论过它。Sora到底厉害在哪里?为什么能引发轰动?
周鸿祎:Sora最震撼我的一点是,生成视频只是一个副产品,重要的是它在这个过程中通过学习很多视频材料,制作出了逼真的、符合人们认知常识的内容。这意味着Sora必须了解这个世界很多元素之间的互动关系。
比如,有人说其他工具也能画猫画狗,但实际上,画出一只处于静止状态的猫狗并不需要掌握知识,只要有图片作为参考就能完成。如果想画出狗在雪地里玩耍,狗鼻子上还能沾上雪,松软的雪还在簌簌掉落,没有相关常识和积累是无法完成的。再比如,让Sora分别画一场篮球赛和足球赛,如果它根本没有“看过”篮球赛和足球赛,不知道篮球和足球的运动轨迹不同,得分规则也不一样,它也是画不出来的。
事实上,GPT的问世实际上是解决了机器和人之间相互理解和交互的问题,因为它理解了语言——语言是人类独有的,理解人类的语言意味着非常大的进步,AGI的第一个难关已经被攻克。Sora则比理解人类语言又进步了一个层次。
在Sora生成的视频里,有一只猫早晨去挠主人要食物,主人在床上翻身。可能大家的注意力主要集中在猫和主人身上了,但枕头才是关键。视频里,主人在枕头上一翻身,枕头就被压皱了。如果是用计算机特效来制作这种褶皱,绝对是一个噩梦——要用什么函数才能描述枕头的塌陷?这种逼真的效果很难呈现。Sora一定学习过床和被子塌陷时的变化情况,因此能够把这种景象重绘出来。
Sora生成视频
南都:Sora对行业的影响会有多大?是否还会出现类似于之前“百模大战”的竞争格局?
周鸿祎:Sora的技术原理现在国外讨论的也非常多,最近stable diffusion发布了一个类似架构开源的东西。我经常讲,人家一开源,我们的科技就进步。国内AI可能在原始创新、从“0”到“1”这方面表现得弱一点,不过一旦OpenAI宣布了这个技术方向,宣布了相关产品,国内的学习就会很快跟上。所以,肯定会有很多家推出类似的文生视频工具,我认为会出现“百模大战”这种情况。
南都:Sora的出现进一步引发了人们对AI“取代论”的担忧,你怎么看?
周鸿祎:对这个问题,我有两个观点想要分享。一是AI科普目前在中国变得非常关键,我接触了很多人,发现大家都在谈论AI的同时,对AI也有恐惧,比如担忧AI会导致大规模失业、带来行业崩溃等。
在我看来,AI是有史以来发明的人类最好的朋友,也是最好的工具,它可以帮助人们“解锁”画画、拍视频等更多技能。特别是对年轻人而言,这项技术能让他们从一个资浅的人,很快和有经验的人站在同一个起跑线上。
进一步来讲,我一直认为AI并不会导致某些行业的颠覆或崩溃,反而会给短视频行业、影视工业、广告业等带来正向的推动,只有那些不用AI的人才会被用AI的人淘汰。AI科普能帮助大家知道怎么去更好地拥抱AI,进而避免AI恐惧论或者AI万能论,这两者都是偏颇的。
南都:还有人认为,小说作者们今后可能直接将自己的故事生成一部电影,进而冲击影视行业。
周鸿祎:我个人认为Sora不会冲击影视行业。大家掌握这一工具后,影视相关行业的供给会变得更加丰富,从业人员增多,是看一条AI生成的简单视频还是一部精心拍摄的影片,只取决于各人的选择,并不会出现电影从此销声匿迹等情况。
不过,值得注意的是,如果Sora等技术太过普及,可能会对人类的文化认知水平产生不可预知的影响。简单来讲,就是人们逐渐都不看别人拍摄的视频了。比如一个宅男躺在家里,脑补了一段故事,然后用AI技术生成视频,戴上苹果的Vision Pro观看……这就会出现一种“自产自销”的情况。
南都:Sora 过于逼真的视频表现也引发了对于伪造和传播虚假内容的担忧,对此你怎么看?
周鸿祎:我认为,目前这项技术最大的风险就是落到坏人手里,小到诈骗勒索,大到制造社会恐怖案件,它可能成为坏人有力的帮凶。过去我们说“无图无真相”,现在不仅一张图代表不了真相,甚至一段视频也不行了。真假莫辨的视频可能会带来新一轮心理战、舆论战、公关战等等。
要应对这些风险,除了加强监管,也要运用合适的技术手段。比如,如何在Sora生成的视频里加入不可更改、不可替换的内部水印,再设计一种配合读水印的程序,经查询就可得知是否为有水印的生成视频。在我看来,这些问题没有得到解决之前,Sora技术不可能“放出来”。
南都:国内大模型企业如何才能追赶Sora?有哪些难点?
周鸿祎:Sora技术出世后,国外也有两条路线的斗争,一条是OpenAI的闭源,另一条是以Meta为代表的开源。开源想要“打败”闭源,就要不断地猜测闭源会怎么做,然后再开源出来。开源的好处是无论大小公司的员工都能积极地在开源项目中借鉴他人成果,并贡献自己的成果。事实上,目前很多技术里用到的模型和算法都是公开的。
我认为OpenAI最强的能力一个是找方向,一个是工程化思路非常严谨。因此,现在需要把工程化思路探索出来。此前大家学习GPT时,也是在方向已经确定的情况下,逐个解决“一个坎怎么过”“碰到一个山怎么翻”等问题,还有很多具体的坑要踩,有很多具体的方法要验证,这都需要时间。
在追赶Sora方面,算力可能会是一个难点。网上有人指出Sora的参数规模不大,约为30亿,这是错误的理解。事实上,视频参数和文本参数是不能简单做对比的,比如文本有10万字,视频只有640×480,但二者所占存储量完全不在一个数量级,Sora参数规模很可能超过30亿。退一步讲,就算Sora参数规模是30亿,其对算力的消耗应该也远远超过一个千亿模型。
Sora为什么只能做一分钟的视频?我猜测,因为它与四秒、六秒时长的视频存在本质差别。四秒、六秒时长的视频可以全部通过像素生成,无需掌握更多知识,而Sora能生成时长一分钟的视频,就意味着它还能做时长十分钟甚至六十分钟的视频,而现在不做的原因是算力和成本的限制。
对于国内而言,同样的困扰也在发生。如何才能将算力集中起来值得重视,这也是我反复强调AI科普重要性的原因。Sora不仅仅是一款文生视频工具,如果它是,只会导致广告、电影拍摄速度慢一些而已,并不会影响大国竞争。然而,Sora实际上预示着AGI的一个关键节点,所以我觉得这件事对国家而言很重要。
大模型红利期尚未到,至少持续十年以上
南都:2024年,中国在AI发展领域有哪些独特优势值得拓展?你如何看待今年AI的发展方向和前景?
周鸿祎:我认为中国的AI发展是有优势的,尽管原创技术方面,面对美国我们处于落后状态,但这种落后不像光刻机和芯片的差距那么大。一旦方向确定了,以国内公司的学习和模仿能力,很快就能追赶上去。目前的差距大概用一到两年时间是可以解决的。
2024年,中国在AI领域的发展主线可能有两条,一是做Sora和GPT4这类超级通用大模型,另一条是推进大模型的应用落地。目前来看,大家对GPT用途的感受主要是写诗、解奥数题、聊天等,离运用在工作学习中还太远。
此外,2024年大模型在企业方面的垂直领域也是大有可为的。大模型会真正产生一场工业革命,它一定要进入到百行千业,与很多企业的业务流程或产品功能相结合。要做出一款超越GPT4的通用大模型是很难的,但GPT4作为一个“全才生”,懂得很多却不专业,如果能在某个业务领域拥有独特的业务数据,进而在一个垂直领域把大模型训练得很好,并与企业的业务工具结合在一起,那么一些垂直领域大模型的能力超过GPT4是完全有可能的。
补充一点是,我很赞同不需要做千亿、万亿的垂直模型,只要做百亿的模型就足够的观点,这样很多企业也能负担相应的成本。
南都:大模型的红利期到来了吗?能持续多久?
周鸿祎:我认为大模型的红利期还没开始。现在唯一能赚到钱的就是英伟达,国外最挣钱的也是英伟达,此外微软、OpenAI都没挣到钱,所以还没有进入红利期。我预计亚马逊能挣钱,云厂商和硬件厂商今后也能率先挣钱。这是一场工业革命级别的革命,大模型的红利期至少有十年以上。
南都:现在有越来越多的年轻人入局人工智能行业,作为前辈,有哪些建议给他们?
周鸿祎:目前来看,入局AI主要有三个方向。
第一个是做大模型本身,但我不认为年轻创业者能胜任,因为他们没有足够的算力等,想走这个方向就应该加入大厂。第二个是利用大模型的API在to C场景找一些应用,具体来讲就是利用百度、360或者阿里等大模型做后台,让大模型为我提供能力的支撑,我去找一些用户场景,这条路是比较可行的。
第三个,我认为GPT真正的作用是提高生产力,我国支持各类企业走向数字化,因此大模型进企业是完全可行的。只要企业不贪多贪大,选一个比较为具体的场景解决问题,那么它超过GPT4的可能性是非常大的。
南都两会报道组
采写:南都记者 樊文扬 王子黎 杨博雯 发自北京