来源:IT时报 作者:郝俊慧
今天(2月26日)18:40,中国首部文生视频AI动画片《千秋诗颂》将于2月26日在央视综合频道CCTV-1开播,首批推出的《春夜喜雨》《咏鹅》等6集动画片,每集约7分钟,从美术设计到动效生成,再到后期成片,均为AIGC辅助制作。
《千秋诗颂·莫愁前路无知己》长安城
据了解,整个系列共有26集,集合了中央广播电视总台海量视听数据与上海人工智能实验室的技术优势,应用实验室视频生成大模型书生·筑梦、文生视频框架AnimateDiff及多项可控图像生成、图像驱动等技术,让中国古诗词“活”了起来,呈现出独具底蕴的东方审美。
AI让古诗词动起来
画是静默的诗,诗是语言的画,中国大量古诗词都应景而做,寥寥数语便描绘出一幅流动的画。2023年,随着人工智能大模型的兴起,读诗作画成为不少大模型展示能力的能力之一。今年年初,随着年初OpenAI扔出“王炸”Sora,更符合人体感官的多模态大模型,正推动人工智能迈进“通感”时代。
数据、算法和算力是多模态大模型成功的关键。上海AI实验室书生通用大模型是国内较早进入多模态领域的大模型,拥有强大的语言能力、宽广的知识体系以及优秀的开放世界理解和内容生成能力。官网数据现实,书生·多模态包含200亿参数,由80亿海量多模态样本训练而成,支持350万语义标签的识别和理解,覆盖开放世界常见的类别和概念。
中央广播电视总台所积累拥有的海量视音频数据已成为国际上最大的中文视音频语料库,2023年,总台与上海人工智能实验室成立联合攻关团队,针对生成式人工智能在媒体领域的应用展开研究,基于总台海量视音频媒体大数据和上海人工智能实验室“书生”基础大模型,联合研发了“央视听媒体大模型”,并应用于总台动画片制作与综合频道的创新节目。
央视听媒体大模型能“看懂”风格参考,根据实拍图生成场景
《千秋诗颂》便是聚焦国家统编语文教材200多首诗词,依托中央广播电视总台“央视听媒体大模型”,首部运用AI人工智能技术将诗词制作为水墨国风的动画片。
让AI看懂中国审美
据节目的技术总指导、上海人工智能实验室领军科学家林达华介绍,《千秋诗颂》通过科学家和艺术家的跨界合作,不断突破技术与艺术之间的界限,为AI技术和媒体创作深度融合的探索迈出了重要一步。
目前,我国视频生成模型与Sora等世界先进技术还存在一定差距,但在中华文化的理解以及和媒体编创流程的融合上,逐渐显露出重要的特色优势。
为了让央视听媒体大模型具备理解古诗词的能力,节目导演与科研人员对大模型“投喂”了大量精准数据并进行训练,使其可精确生成符合历史依据的人物、建筑、场景等美术图,美术风格符合中华传统文化的水墨、工笔等风格化传统审美,能够准确理解“国风、唐代、写意、工笔画”等传统文化词汇,并能按照概念描述为《千秋诗颂》生成工笔、水墨等国画风格的美术素材。打造出其独特的风格和强项——中国审美。
国画大师风格视觉效果
为了更真实地呈现古诗词中的人物和故事,导演团队在创作中坚持以史实为基础,片中的建筑、酒具器皿、摆件等道具的创作依据源自博物馆现存文物及图片。运用人工智能相关技术,研究团队对这些文物进行动画复原,让文物“活”了过来。
孟浩然桌上的茶具,由人工智能技术动画复原唐代独有的“七星盘”
此外,制作团队不仅能够通过提示词进行画面内容生成,还可以使用风格参考图、构图草图等方式对生成内容进行更加精细打磨,还原真实历史,保留栩栩如生的动画表现力。
效率提升三倍
凭借卓越的语言理解能力和多样化的高质量美术风格生成能力,央视听大模型为动画制作团队提供了一种低成本、高效率的角色和场景美术概念设计工具。
据介绍,在同等预算条件下,按照传统动画制作流程计算,类似《千秋诗颂》这样的动画片,一个月只能做一集,现在一个月可以做三集。
在央视听大模型中,输入多段视频或图片素材,即可自动生成转场动画,实现不同场景和视频之间的“丝滑”连接。基于独创的主题一致性模块,央视听大模型生成的动画还可实现“多机位”效果,保持故事情节的连贯和起伏。
在人物方面,服饰及相貌由真人装扮后通过AI进行动画转化完成,而针对五官特点等更为精细的内容,则由后期团队“精雕细琢”完成。
目前,这项应用仍处于产研结合阶段,未来大模型研发成熟后,制作周期和动画精细度都会加速迭代升级。
当日,双方还携手多所高校与企业,共同发起成立央视听媒体大模型研发共同体,以产学研多维度强强联合,面向未来人工智能和媒体行业的科技研发和应用落地进行联合攻关,共同引领产业生态高水平成长。