从Sora看AI应用发展探索新质生产力有望推动TMT再下一城

作者：报告派研读发布时间：2024-03-07

报告出品方：华鑫证券

以下为报告原文节选

------

1.从2023年ChatGPT到2024年的Sora 同与不同

前言：AI 1.0、AI 2.0、AI 3.0

LLM开源使得千模万模智能开 ChatGPT分支成为主流助力进入AI 2.0 拉起2023年中国AI热度大年 2025-2025年有望持续探索AI应用边界➢ DNN（深度神经网络）：通过无监督学习逐层训练每一层，然后使用有监督学习微调所有层；CNN/RNN（卷积神经网络）vs （循环神经网络）：常用神经网络架构（图像处理+时间序列处理），CNN适用于处理图像数据，通过卷积计算保留主要特征；RNN擅长处理序列数据，如文本或时间序列；

➢ Diffusion Model（扩散模型）一种生成模型，它的工作原理是通过连续添加高斯噪声来破坏训练数据，然后通过反转这个噪声过程，学习恢复数据，相比其他生成模型如GAN，Diffusion所需数据更少，生成效果更优，该模型在图像生成领域较好也被用于视频生成，如谷歌Imagen Video，该模型也被OpenAI的DALL-E2等文本生成图像模型所采纳。

➢ Transformer：一种深度学习模型，依赖于自注意力机制来计算输入和输出的表示，Transformer使用多头注意力机制，可以同时关注输入序列中的不同位置，从而有效地捕捉长距离依赖关系，Transformer的并行训练能力使其训练时间更短，效率更高（谷歌在在2017年提出，并在论文《Attention is All You Need》中进行详细阐述）；

➢ BERT：2018年由Google研究人员提出，自然语言处理领域应用广泛，也成为许多NLP任务重要基石；➢ ChatGPT：在GPT-2的基础上推出的，且使用了语义哈希算法，使得模型能够将对话中的词汇转化为离散符号，从而更好处理不同语言；ChatGPT系列产品不同于传统大语言模型产品，其采用了强化学习方法和大量的训练数据，进而OpenAI的ChatGPT版本GPT-3中出现涌现（Emergence）的现象。

1.1、2023年ChatGPT VS 2024年Sora 不同点

第一，科普层面效率更高，得益于2023年大语言模型认知基础的建立，2024年生成式视频模型Sora能更高效的短期内完成市场科普；科普周期有助于板块情绪的发酵，换言之，2024年的科普周期较2023年有所缩短，进而情绪带来的交易热度也预计会有所缩短；

第二，自上而下政府响应效率不同，2024年2月15日Sora推出，政府端较快的响应，凸显对AI发展支持态度，利于延续AI板块热度与情绪；（2月21日国务院国资委召开中央企业人工智能专题推进会扎实推动AI赋能产业焕新。2月23日央视频推出中国首部AI生成动画片《千秋诗颂》发布会，2月26日首播）

第三，Sora推出后，国内大型互联网企业积极响应跟进的较少，字节跳动表示仍有差距，国内大型互联网企业在实际动作端相对低调（模型开源、算力、数据等制约），相反，国资委认为，加快推动人工智能发展，是国资央企发挥功能使命，抢抓战略机遇，培育新质生产力；

第四，微小盘及中小盘国企央企、民企面对AI均积极拥抱，寻业务增长第二曲线，应用端得益于上一次大语言模型的基础，企业响应效率提升，利于也打开了新需求市场。

1.2、2023年ChatGPT VS 2024年Sora 相同点

➢ 第一，从ChatGPT到Sora，文生文，文生视频均是AIGC的重要组成部分。

➢ 第二，在2023年ChatGPT热度前，传媒应用板块已跌幅较多，在AI推动下带来较好反弹修复、估值重估的空间；2024年2月Sora推出后，虽AI技术路径及产品产品不是从0到1的发明，更多是发现，但传媒在此之前也经历一波回调，进而也为这一次Sora推动的多模态AI应用热度带来反弹空间。

➢ 第三，美股映射，从英伟达到微软，因AI驱动，市值不断增厚也凸显资本端的认可，进而衍生“映射逻辑”。

➢ 第四，从ChatGPT到Sora，产品热度不断，首先均带来科技创新的情绪价值（从企业到市场均需要的情绪价值）。Sora是发现不是发明，但以Sora为代表的AI生成式视频模型的推出为创新科技发展带来新期待。2月15日OpenAI旗下首个视频生成模型Sora推出，2月22日发布第二波AI生成视频作品；2月23日Stability AI推出Stable Diffusion 3.0，采用了与Sora同样的DiT架构，市场热度不断。

当移动互联网的发展红利见顶，大中小企业均在寻增长第二曲线，AI的推动，打开企业业务增长新预期，国企护航（国资委指出，中央企业要把发展人工智能放在全局工作中统筹谋划，深入推进产业焕新，加快布局和发展人工智能产业，换言之，国企央企的加入也有望推动新需求），民企创新，有望共举AI应用热度。

1.3、AIGC是什么？（ChatGPT VS Sora）

AIGC 概念： AIGC（AIGenerated Content，人工智能生产内容

➢ 狭义：利用 AI 自动生产内容的生产方式；

➢ 广义： AIGC 已在实现人工智能从感知理解世界到生成世界的进击；

➢ AIGC意义：正在加速成为AI领域商业新边界；AIGC 也会带来内容创作变革。

1.4、AIGC vs ChatGPT 重要组成

➢ AIGC 多模态应用中，ChatGPT是基于LLM大语言模型推出的文生文模型，由 Open AI推出（人机对话，根据语义对答-类人），2020年6月，OpenAI宣布GPT-3模型，2020年9月微软取得授权；

➢ ChatGPT底层技术：基于自然语言处理（NLP）大语言模型，使用了谷歌提出的Transformer神经网络架构+强化学习技术+开源架构为依托；

➢ ChatGPT为什么火？通过低门槛对话形式，用通俗易懂形式（如检索、写作、编程）向非技术用户展现人工智能强大；

➢ 2023年3月14日推出，OpenAI推出ChatGPT-4，推动AI应用热潮。

1.5、OpenAI：Sora推出前的每一步累积

第一步 ChatGPT 第二步DALL-E 3 从文本的语义理解、图片生成步步为营

➢ 语义理解：OpenAI指出在文生视频中使用了re-captioning技术（即对图片进行再次描述或重新标注的过程），该技术是在DALL-E3中已介绍；

➢ 类似于DALL-E 3，OpenAI也利用GPT将简短的提示（prompt）转化为更长的详细提示，并将其发送到视频模型中，使得Sora能够生成高质量的视频，准确遵循用户提示；

➢ Re-Captioning：2021年,OpenAI发布CLIP（Contrastive Language-Image Pre-Training）模型，即将图像和文本进行匹配，CLIP模型的应用之一是Re-captioning。

1.5、OpenAI：Sora推出前的每一步累积（CLIP模型）

➢ CLIP模型：2024年2月Sora推出，离不开OpenAI在2021年发布的CLIP模型（在开源模型LLM+DiT基础上，应用了自身独特模型架构性CLIP）;

➢ CLIP模型：虚线以上， CLIP模型的训练过程，即文本和图像匹配；虚线以下，OpenAI的文本到图像的生成过程，将CLIP文本嵌入到自回归或扩散中（prior），以产生图像嵌入，然后使用此嵌入来约束扩散解码器（decoder）;

➢ 与其他图像表示模型相比，使用CLIP主要优势是其可以嵌入图像和文本放在同一个潜在空间，可用语言来引导图像。

1.5、OpenAI：Sora推出前的每一步累积（为什么选择CLIP模型？）

对比CLIP与unCLIP模型（基于模型性能、效率、成本，OpenAI采用了CLIP模型）

➢ 相同点：CLIP与unCLIP模型均是基于图像和文本的匹配：均是利用图像和文本之间的匹配关系进行训练和应用的；均是预训练模型

➢ 异同点：

第一，应用方向：CLIP主要用于图像和文本的匹配任务，如图像标注、图像检索等；unCLIP是一个文本条件图像生成模型，它能够根据文本描述生成相应的图像，具有更强的生成能力。（但处理复杂场景可能文图不一致）

第二，模型结构：CLIP由图像编码器和文本编码器组成，它们分别将图像和文本映射到同一个表示空间中，使得相似的图像和文本在表示空间中的距离更近，unCLIP是在CLIP的基础上进行了改进，它结合了CLIP的图像嵌入解码器与一个先验模型，用于生成图像。

第三，训练方式：CLIP的训练过程主要是学习图像和文本之间的匹配关系，通过对比学习的方式使得相似的图像和文本在表示空间中的距离更近；unCLIP的训练过程则包括两个阶段，首先是训练CLIP模型，然后使用CLIP的图像嵌入解码器和先验模型进行训练，生成图像；（unCLIP两步走成本可能更高）

1.6、AIGC vs Sora重要组成：2024年2月Sora打开AI应用新里程碑

【Sora】OpenAI首个视频生成模型

关键词：60秒、世界模拟器、与世界互动、真实、细节、分镜、动态相机、3D一致性的涌现？

OpenAI指出，Sora是结合Diffusion和Transformer，换言之Sora= DiT ，融合了Google的 MAGViT (2022.12 Multimodal Generative Video Transformer) 的Video Tokenize方案，借用Google DeepMind的NaViT (2023.07 Neural Video Transformer) 支持了其原始比例和分辨率，使用OpenAI DALL-E 3 (2023.09) 图像描述方案生成了高质量Video Caption（视频描述），在开源模型基础上，应用自身独特CLIP模型架构。

1.6、AIGC vs Sora重要组成：Sora2024年打开AI新里程碑

【Sora】OpenAI首个视频生成模型

关键词：patch vs token Sora的1个视频=1分钟=60秒，每秒=30帧（分辨率1920*1280)Sora如何解决数据量？采用一个编码器encoder，将视频内容压缩到隐空间，然后以patch形式输入到扩散模型，进而，一个60*80视频=1个patch=计算需要多少个token完成一个视频；

➢ 文献对具体计算方式、依据无展示；

➢ 按GPT-4成本：通过token的成本可计算1个视频成本；

➢ 视频→patch &patch→token （关键在于视频到patch的转换效率）

1.6、AIGC vs Sora重要组成：2024年2月Sora打开AI应用新里程碑

【Sora不是发明，是发现，为什么具有较大意义？】

➢ Sora的架构不同，基于LLM，DiT之外，应用了2021年OpenAI独有的CLIP模型模型；

➢ 训练方法不同，带来高效的数据利用，即将视频帧切割成patch；Sora模型能够充分利用每一帧信息，提高数据的利用率；

➢ 革命性的数据处理方式，即通过训练patch而非完整的视频帧，可直接处理任何尺寸的视频或图像，无需进行大量的预处理工作；

Sora在视频上实现了“大力出奇迹”的涌现，通过将视觉信息表示为patch，Sora模型为视觉语言大模型的发展奠定了基础，通过将patch与文本token相结合，可实现文本与图像的跨模态理解与生成，为自然语言处理与计算机视觉的融合提供了新的可能。Sora对AI的意义在于引领未来的科技革新，赋能各行业，推动产业升级即创新发展。

1.7、OpenAI的发展离不开微软的加持

➢ GPT-4：2023年3月15日推出（比GPT3文本准确度高、文生图）；微软已把GPT-4应用到Bing

➢ 应用层，微软将Office升级为Microsoft365 Copilot，Copilot可在微软多个商业应用程序中使用，包括Word、PowerPoint、Excel等（Copilot将成为全新工作方式主要原因：改进了大语言模型（LLM）能力，使其能更好地理解和回应用户输入的文本）。

ChatGPT是一次生产力革命（底层范式正在改变），改变了人们与技术的互动方式，还为未来的科技发展提供了新的可能性和方向，每个细分业务在AI时代都有望重做一次，且有望拓展新领域。从微软的市值攀升，到Midjourney从设计外包公司成为AI新秀，HeyGen从视频翻译公司借力AI估值再提升，Pila从视频制作公司成为AI视频生成公司，2024年2月迎OpenAI首个AI视频生成模型Sora，均在推动AI作为新质生产力的渐进发展。

1.7、OpenAI+微软解决商业化难题（相比谷歌）

1.8、总结：从OpenAI身上看到什么？

➢ OpenAI为什么选择CLIP 而不是unCLIP ？

➢ Sora不是发明是发现，但为什么是OpenAI？

第一， OpenAI在2021年发布CLIP模型架构，独创的模型架构也奠定了DALL-E3的发展，由于DALL-E3的发展，助推了Sora的出现，层层递进，步步为营；相比unCLIP，CLIP通过自然语言监督有效学习视觉概念，从而解决了深度学习主流方法中存在的一些问题，如需要大量的训练数据集、模型迁移成本高等问题；在“大力出奇迹”的路线下，OpenAI在细节上也会考虑用较高性价比的方式来做产品。

第二，OpenAI具有卓越的工程能力。相比大型企业，OpenAI具有组织灵活优势及带领者的创新认知，如图书《为什么伟大不能被计划》中指出，“寻宝者思维”、“踏脚石模型”和“新奇性探索”，以更开放、更灵活的心态去探索和发现，并强调了创新和创造的重要性，OpenAI从GPT系列推出，到Whisper，再到Sora，也凸显了其具有探索精神；在极致产品打磨的基础上，未陷入自我成就，而是携手微软，践行商业化，好产品在有效商业化基础上可持续迭代产品，累积之下聚集了人才、数据，算法、算力、独特模型，形成正循环，飞轮效应；

2、中国AI动画片《千秋诗颂》推出看AI如何赋能产业新发展？

2.1、AI生成国产动画案例：以Sora为矛应用为盾

2024年2月15日Sora推出，2月23日中国首部AI动画片《千秋诗颂》启播暨总台人工智能工作室揭牌仪式（基于2023年AI累积，2024年2月企业AI产品快速落地）

➢ 中国首部文生视频AI系列动画片《千秋诗颂》依托总台“央视听媒体大模型”，运用AI技术聚焦统编语文教材200多首诗词，转化为国风动画片。为青少年打造的《千秋诗颂》首次推出六集传播中华文化，科技与文化的融合，2月26日起在CCTV1综合频道播出。

2.2、从AI生成动画片看A股投资标的

自上而下看，CCTV1推出AI生成动画片，凸显央国企积极拥抱文化与科技的融合发展新趋势

第一维度，有望带动央国及地方国企积极布局AI赋能主业如【中信出版、浙文互联、中视传媒、国脉文化等】；

第二维度，从诗词AI生成动画片，有望提升中国传统文化价值，可关注具上游内容素材且制作能力，如梳理了中国有史以来的传说、故事已初步形成中国神话宇宙的世界观，并推出《姜子牙》《哪吒》等动画作品【光线传媒、B站、上影等】；

第三维度，央国企布局AI等应用也需虚实融合，如AI赋能城市元宇宙等案例，具虚实融合承接力企业【风语筑、锋尚文化等】；

第四维度，文生视频带动短剧供给，具IP及内容素材优势【芒果超媒、华策影视、中文在线等】

第五维度，AI赋能体育教育，夯实IP赛事赛车主业同时，具有体育中考服务、智能体测系统），拥有悦动圈，即AI运动健康管理平台【力盛体育】

第六维度，AI赋能文学及动漫，