长假期间Sora模型持续获得市场关注,中信建投点评称,Sora视频效果远超预期,标志着AGI时代的来临。相关公司方面,据澎湃新闻统计,已有十多家A股上市公司之前已经布局多模态大模型或对AI视频相关研发。包括大华股份、万兴科技、博汇科技等。
OpenAI官网介绍,Sora是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换生成视频。Sora能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多个帧的预见,OpenAI解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。
中信建投对此点评称,Sora视频效果远超预期,标志着AGI时代的来临。至于节后是否会重演2023年春节假期间Chat GPT爆发后的AI热潮,我们认为AI大概率是本轮“龙抬头”行情主线,维持红利+央国企底仓推荐同时,建议关注AI主题行情。
据澎湃新闻不完全统计,已有十多家A股上市公司之前已经布局多模态大模型或对AI视频相关研发。
海康威视(002415)在去年4月20日回复投资者提问时披露,公司从几年前就开始研发视觉大模型,现在已经到了多模态大模型的研发阶段,包括视觉、语音、文本等多模态信号的融合训练及处理。
大华股份(002236)于2023年10月发布“星汉大模型”,该模型融合点云、语音、图像等输入,构建了多模态融合的行业视觉大模型。
大华股份在1月15日在投资者问答中介绍,公司多模态融合的行业视觉大模型(大华星汉大模型),是基于公司过去丰富的行业和细分场景的业务经验,面向以视觉为核心的智慧物联领域,通过融合图像、点云、文本、语音等多模态数据所搭建的,大幅提升了视觉解析能力,该模型为解析式大模型,与市面上的ChatGPT等生成式大模型有明显差异。
万兴科技(300624)此前发布音视频多媒体大模型万兴“天幕”。据了解,万兴“天幕”是一个以音视频生成式AI技术为基础的多媒体创作垂类大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,聚焦数字创意垂类创作场景。
2月2日,万兴科技在互动平台表示,天幕大模型主要基于公司在数字创意领域二十年的产品开发与运营经验而打造的音视频多媒体大模型,具备多媒体、垂直解决方案、算力数据及应用本土化等特色,以更智能、更沉浸的功能效果和产品体验赋能全球内容创作者的创意表达。
博汇科技(688004)1月9日在回复投资者提问时表示,公司通过运用人工智能、大数据等技术,对采集到的数据进行分析、特征学习和样本训练,构建智慧监管模型,提升了对文本、图片、音频、视频等多模态数据的处理分析能力,进一步强化核心技术优势,提高产品竞争力。
易点天下(301171)在2月4日在投资者互动平台表示,公司旗下AIGC创作平台KreadoAI可以帮助企业实现从脚本撰写、语音克隆、个性化数字人选择到输出口播视频的内容生产AI化全链路闭环。
数码视讯(300079)1月4日互动平合表示,公司多年来积极自主研发积累AI技术,龙其是在视频内容生产领域,持续不断探素AIGC生成式技术,并配合智能审核技术、多模态智能搜索等实现全媒体行业的媒资管理,构建全新视音频服务。
汉王科技(002362)2023年12月31日互动平台表示,公司在文本、图像、视频、生物特征、语音等多榄态识别、文本理解和利用等技术上耕耘多年,并形成智能终端产品和行业解决方案。目前正在研发的AI模型尚属于新生技术,在文本生成、生成内容的控制与审核等方面的技术细节尚在进一步完善。
当虹科技(688039)1月5日互动平台表示,公司拥有自研的AIGC工具集,发布了以静态照片生成三维体积视频的方案,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。公司AIGC视频内容智能生成系统融合了大模型技术,能助力用户在新闻传播、视频内容创作等多项领域中创作出优质视频内容。
东方国信(300166)去年12月27日互动平台表示,在AI多模态方面,公司在文本、语音、图像、视频等非结构化数据类型的AI分析上,均有应用产品和落地案例。视觉类有基于Stable Diffusion的图像生成能力,其他视觉类大模型应用还在探索技术路径和应用场景。
神思电子(300479)2023年12月26日在互动平台表示,公司经过多年人工智能领域积累,已突破了远距离全天候复杂场景激光热成像联动入侵检测技术,掌握了基于深度学习的非结构化数据处理、视频分析、语音对话、知识管理以及云平台技术。公司正在对于文生图、图生文、视频生文、文生视频等多模态数据互相跳转的收敛性质进行研究,支撑培训、检索、推荐、目标追踪等多个场景的生成式大模型应用。
因赛集团(300781)2023年12月25日在互动平台表示,公司InsightGPT具备文生文、视频智能剪辑、图生视频等功能,目前正在开发文生视频功能。在现有图生视频等技术框架下,InsightGPT目前可生成20秒以上的视频。在目前文生视频的逻辑流程中,InsighGPT先结合图像、视频大模型,融合抠图等多种算法,再结合音频模型,整体渲染后最终合成完整视频。
拓尔思(300229)2023年12月14日在互动平台表示,公司在Transformer架构方面积极跟踪业内最新技术,未来将根据技术研发和业务需求的实际情况,适时采用类似架构。
国脉文化(600640)去年12月12日在互动平台表示,公司在文生视频方面,已内部开发基于大模型的AIGC数字内容生成平台,平台利用多模态技术,使用自有的版权内容,生成文字、音频、图片、视频等影视素材,进行内容的创作生产,正在内部试用中。
佳都科技(600728)在2023年12月11日在互动平台表示,公司TransCorc-M多模态大模型能够理解立本、图像、视频等多种模态的信息,并且按照用户需求将其进行描述、提示或转化为指令代码,是个非常“聪明”的交通信息小助手。
IT之家 2024-12-21
三言科技 2024-12-21
IT之家 2024-12-21
IT之家 2024-12-21
IT之家 2024-12-21
三言科技 2024-12-21
IT之家 2024-12-21
IT之家 2024-12-21
IT之家 2024-12-21