最近,AI生成视频的独角兽创业公司Synthesia CEO发布了一篇博客,介绍了他对未来媒体形态的理解-合成媒体。下面就请大家一起欣赏这篇有意思的文章吧:Enjoy
《The Future of (Synthetic) Media》
我们做的事情中有哪些不涉及媒体呢?嗯,我想其实没有。
再想想吧。滑动社交媒体平台、走在城市里,或者工作——是的,媒体无处不在。我们比以往任何时候都要消费更多的内容,新技术也使我们能够积极参与其创作。
如今,任何人都可以创作出美观的设计,编辑一个TikTok视频,使用笔记本电脑制作音乐,或者给他们的肖像应用一个有趣的Snapchat滤镜。
那么——是什么驱动了这场内容创作的革命?
随着计算机变得更聪明,当涉及到内容创作时,对人的输入需求减少了,一个新类别的媒体正在兴起。我们称其为合成媒体。
想想看真的有点疯狂。
它使我们能够根据文本提示创造图片,通过输入文本产生逼真的说话的头像视频,并通过简单地告诉AI我们想写什么以及怎样写来获得高质量的文本。
事实是,AI生成的媒体已经在改变媒体格局,我们正处于媒体生产和消费的重大范式转变的边缘。
为什么?
因为制作媒体不再是一个物理过程,而是一个数字过程,这意味着我们可以以全新的方式创造内容。
简而言之:新的创作过程 = 新的思想 = 新的内容形式。
想想创建博客、新闻简报或新的社交媒体账户有多容易。新的分发方式从未如此容易设置,每发布一篇内容,你都可以触及大量的受众。#病毒式传播 #受众 #社区
什么是合成媒体?
纵观历史,媒体一直在不断演变。从洞穴画到印刷,到大众和所谓的“新媒体”,再到一个全新的类别——合成媒体。
那么,什么是合成媒体?
它与我们所知的媒体格式有何不同?
它对媒体创作的未来意味着什么?
合成媒体的简短定义
首先,我们来给出一个简单的定义:
近年来,“合成媒体”这个词在常用语中出现,用作一个泛指,描述完全或部分由计算机生成的视频、图像、文本或语音。
现在,我们来了解一些背景:
人们交流的方式总是与某一特定时间可用的技术密切相关。
例如,在文艺复兴时代,人们并没有使用电话,我们也不再在洞穴里绘画。但我们确实通过快照、TikTok和DM来交流——这些都是前所未有的全新内容形式。
我们看到的是技术的持续进步导致了交流的新方式,即在创作、消费和语境化方面各不相同的新媒体格式。
合成媒体的现状
直到最近,我们才达到了一个点,合成媒体技术——简单地说——已经足够智能,可以阅读初始的数据集,并基于这些输入创造新的内容。
在我们看来,AI软件生成新颖内容的能力是由深度学习最近进步所带来的最令人兴奋的发展之一。
媒体创作和消费的即将到来的范式转变很可能会改变整个行业的等式,如教育、娱乐、医药和零售。
事实上,这已经在发生。以下是一些最近的例子,展示了生成性AI如何在各个行业中被使用:
合成媒体的工作原理
听起来很有趣吗?那么让我们稍微深入一点…
合成媒体是如何工作的?
生成合成媒体的“幕后”到底发生了什么?
我们将尝试简单地描述它,并通过比较“常规”和“合成”视频制作来解释它。但首先,先了解一些理论。
合成媒体(一些理论)
合成媒体是由人工智能算法创建的。机器学习模型识别并分析输入数据的模式,并学会基于这些数据执行任务,无需人为干预。
听起来太复杂了?别担心,我们很快会给出一个示例。
关键在于:深度学习的进步正在带来魔法。真的。
文本、图像、语音和视频内容可以以如此高的保真度复制,以至于几乎无法分辨它是真实的还是虚假的。
但作为人类,我们天生就能发现在复制人的相似性时的微小错误和失误。这就是所谓的“不可思议的山谷”效应,这也是为什么如今在好莱坞电影中的大多数数字创建的角色仍然感觉有点奇怪,而且这就是为什么你可以很容易地检测到深度假冒。
但合成媒体技术正如我们写这些文字时在不断进化,不久的将来,我们将能够从浏览器中制作好莱坞级别的电影。
这并不是开玩笑——我们真心相信在10-15年内这将成为现实。
这些新技术将使人们能够以全新的方式将他们的想法变为现实,用完全数字化的过程取代现有的物理过程。
我们认为这很美妙。
合成媒体(具体示例)
以视频制作为例。
以“传统”方式创建5分钟的视频需要很多不同的资源。这是一个相当碎片化和冗长的过程,涉及编写剧本、雇用摄影棚和摄制组、演员、摄像机、麦克风——应有尽有。这需要大量的时间和金钱,而这只是开始。
想想编辑,将镜头翻译成不同的语言,以及用新信息更新它。
想想这些真的让人望而生畏。
但使用AI,视频制作已经彻底改变。
你再也不需要上述的任何东西来创建真实感的视频。AI现在使你能够仅通过在浏览器中输入文本(用任何语言)并选择一个基于真人的头像来生成合成视频。你还可以创建自己的头像并合成自己的声音。与传统视频不同,AI视频可以在几分钟内生成,并且你可以随时更新。
相当酷,不是吗?
那么,这种新的、完全数字化的创建内容的过程有哪些影响呢?
它们绝对比你在几分钟内获得视频要广泛得多。
如今的合成媒体仍然处于初级阶段,但许多公司已经使用这些解决方案为各种目的(如员工培训、营销、内部沟通等)创建视频。
我们这里只是谈论视频——别忘了文本、图像和语音。
我们的预测是:在不太遥远的将来,大众传播将日益成为历史,随着视觉叙述的价格暴跌,好莱坞将面临全球竞争。
合成媒体将促进新形式的通信的创造,传统的媒体格局将完全改变。
很多人问这是否是我们应该担心的事情。简短的答案是:不。
但请继续阅读,我们稍后会在这篇文章中探讨其优缺点。
何为合成和非合成媒体?
当我们谈论媒体时,基于不同的标准有许多不同的分类:
分发方式(老式 vs. 传统媒体)
生产方式(模拟 vs. 数字媒体)
支持技术(印刷、广播、视频...)
参与的感官(音频、视觉、音视频、多感官...)
分发方式(获得 vs. 分享的媒体)
创作者(单向 vs. 用户生成的内容)...
合成与非合成媒体的区别
但让我们坚持我们的主题,回到基本定义,帮助我们区分合成媒体和非合成媒体:
合成媒体是部分或完全由计算机生成的媒体。非合成媒体是以传统方式创建的任何其他媒体,即由人类输入生产的媒体。
不明白吗?让我们看两个具体的例子。
以报纸文章为例。完全由人编写的,明显属于非合成媒体。
现在想象一个照片,其中使用Instagram滤镜为真人脸添加兔子耳朵。这部分是由AI生成的(照片被算法修改),因此我们可以说它是“合成的”。
深度学习 + 假 = 深度假冒
当我们谈论合成媒体时,我们不能忽视臭名昭著(但形容得当)的术语“深度假冒”。这是“深度学习”和“假”两个词的混成词,首次由Reddit上的一名用户在2017年提出,随后成为主流。
但所有的深度假冒都是坏的吗?
“深度假冒”这个词通常带有负面的含义。它通常用来描述那些被AI操纵的视频,使其看起来像是某人正在做或说他们实际上并没有做或说的事情。也许是某个著名人物。
你可能已经熟悉这些,但以防你忘了:
互联网上最受欢迎的例子是一个带有Tom Cruise深度假冒的TikTok频道,立即走红。还有一些其他你可能听说过的例子,比如Barack Obama的深度假冒,说出真正的Obama在公开场合永远不会说的话,或David Beckham用9种语言说话来对抗疟疾
尽管这个反疟疾活动为了一个好的目的使用了深度假冒技术,但市面上还有很多恶意的深度假冒应用:
复仇色情、传播错误信息和身份欺诈是最常见的。
无论是为了好的还是坏的原因,合成媒体在未来都会对我们的社会产生重大影响——我们的预测是,与其他任何新媒体一样,社会会适应。
实际上,我们认为它已经做到了。
如今,没有人怀疑我们在杂志上看到的照片已经用Photoshop进行了修改。即使是我们的父母也已经以某种方式接受了奇怪的面部互换应用和Snapchat滤镜,对这种媒体变得更加批判性(也更加开放)。
是的,年轻的一代会适应,但老一辈的人呢?
我们相信,教育将在识别合成媒体中起到重要作用 - 无论是对年轻人还是老年人。
人们接触AI生成的内容越多,他们适应和分辨真实和虚假的速度就越快。
7种合成媒体及其示例
近年来(或者更确切地说,近几个月),一个事实变得清晰无误:我们正在迅速走向一个合成媒体的未来。
随着技术的成熟,我们看到AI领域的公司数量激增(2021年AI初创公司获得了380亿美元的投资),最重要的是——AI生成的内容每天都被独立创作者和《财富》500强公司使用。
合成媒体正在成为我们日常生活的一部分。
不相信吗?让我们来看看一些例子:
1.合成视频
你能想起昨天看过的三个视频吗?当然可以!
毫无疑问,视频正在接管互联网。在注意力成为新的货币的今天,视频是最具吸引力因此也是最有效的沟通方式。
现在,可以以更少的成本和努力创建计算机生成或合成的视频,同时看起来还很“真实”。
通过消除之前由物理流程带来的障碍,像Synthesia这样的公司正在大大推动视频内容创建的可访问性和民主化。
以下是任何人如何只通过浏览器制作视频,无需摄像机、演员和麦克风:
2.合成图像
如果你可以让计算机生成任何图像,你希望得到什么图像?
这听起来像魔法,但AI图像生成器使其成为可能。
只需输入你的提示,AI将迅速以你能想象的任何风格生成所需的图像。
毫无疑问,图像合成技术目前正在经历一个蓬勃发展的阶段,你可能已经遇到了一些由AI模型如Dalle、Stable Diffusion和Midjourney赋予生命的引人注目的图像。
以下是一些著名的例子:
3.合成语音
想想虚拟助手、呼叫中心以及外语配音。他们中的大多数今天仍然使用真实的人声,但随着人工语音技术变得越来越易于获得,这肯定即将发生改变。
人类和合成语音之间的区别变得越来越难以察觉,而AI模拟真实人的语音也变得越来越受欢迎。
你知道听到自己的录音时那种尴尬的感觉吗?真尴尬。
使用AI语音克隆技术,你可以克隆自己的声音或为不同的角色创建全新的声音。由你决定。
4.AI生成的文本
不想写作吗?让AI为你做这项工作。
你可能已经听说过ChatGPT,对吧?它是基于GPT3的聊天机器人,是OpenAI创建的第三代语言模型,使用深度学习来生成各种基于文本的内容,如文章、故事、法律文件、新闻报道、对话...
它的工作方式与普通聊天机器人相同,几乎不需要人工干预;你提问或给予指示,它就会为你生成答案。它能够生成大量的高质量文本,帮助研究、翻译等,还可以为你节省大量时间。没错,它也可以很有创意。下一步?AI驱动的搜索!
自从ChatGPT发布以来,已经很明显,先进的会话AI也将对我们如何在线搜索信息产生很大的影响。
Google和Microsoft已经将AI整合到他们的搜索引擎中:
二月份,Microsoft将ChatGPT整合到Bing中,而Google通过Google Bard推出了自己的会话AI驱动的搜索。
对于用户来说,这意味着什么?更加相关和准确的搜索结果,以及我们获取信息的全新方式。
5.AI网红
合成媒体也模糊了数字领域的起始和结束之间的界限,由机器学习算法生成的AI影响者就是一个很好的例子。
拿最著名的Lil Miquela来说。
她在Instagram上有300万粉丝,并经常与大型时尚品牌(如Chanel、Samsung、Calvin Klein等)合作。
这个由算法生成的明星自称是一个“住在LA的19岁的机器人”,代表了全新的数字身份类别。
她是真实的吗?很难说。
她与真实的人类影响者有什么不同吗?几乎没有。
6.混合现实
想想Snapchat的滤镜、家具的试穿,或者——如果你够大岁数的话——2016年的Pokemon Go狂潮。
这只是几个混合现实的例子,它们都使用技术作为物理环境的附加层,通常通过智能手机的摄像头或耳机。
在混合现实中,物理和虚拟对象被混合在一起,并在实时中共存和互动。
混合现实的应用(和好处!)是无穷无尽的,因为它可以跨越教育、娱乐、医疗、教育等领域使用。
7.面部互换
你有没有试过用别人的脸换你的脸?很有趣,对吧?
有很多应用程序使用AI检测照片或视频中的脸并用其他脸替换它们。
这就是著名的(并且令人信服的)Tom Cruise和其他“假”名人账户背后的技术。
虽然一开始用一个人的脸替换另一个人的应用程序看起来似乎是无害的,但这项技术也可以用于负面目的(例如,复仇色情、政治宣传或欺凌)。
我们都同意互动媒体合成确实令人震惊,而且功能强大。因此,我们不应低估其潜力 —— 无论是好还是坏。
以下是一些利弊的列举:
5个AI生成媒体的优点:
使用AI的最明显好处是提高人类的表现和简化我们的日常生活。
想想语音助手、导航应用和智能家居设备。很难想象没有它们的生活。
AI —— 相比于人类 —— 能够在许多不同的领域中做出惊人的工作,从医学到法律,再到处理基本的家务活。
当我们将AI应用于媒体创作时,我们获得了合成媒体的许多优点:
AI工具始终容易获取且易于使用。AI消除了内容创建中的单调任务。它帮助人们更快、更高效地工作。它使人们能够以新的、前所未有的方式进行创意表达。它丰富了我们的体验(网站、游戏、虚拟现实等)。
4个使用人工智能进行媒体创作的缺点:
我们已经提到了AI和合成媒体的一些误用。
当任何人都可以创建合成媒体时,技术的误用成为了最大的风险。
它可能导致:
可疑的人类相似性,也被称为“不祥之谷”对人的错误暗示操纵和分享错误信息 + 假新闻破坏对媒体的信任我们相信随着技术的持续发展和更多的社会接受,合成媒体的这些优点和缺点会发生变化。
但未来肯定会受到AI潜力的影响。
一些最明显的例子:
我们认为数字助手实际上会看起来很真实,虚拟名人(或他们的数字化身)将永远存在,而游戏会比今天感觉更像真实。
你还会加什么?
合成媒体的社会影响和未来
那么,今天的合成媒体状态是什么?嗯,它肯定正在流行。
但作为一个全新的类别,它还没有被社会完全接受。
为了说明这一点,让我们看看适用于任何新产品或创新的技术采用生命周期模型。
我们目前处于初期 —— 热情的创新者和早期采用者混合,普遍的恐惧、不信任和谨慎是自然的。
一旦技术被接受,社会就会变得更加接受。我们的预测是,这可能会在未来几年内发生。
让我们不忘记:从时间的起点开始,我们创造和分享故事的方式一直在不断地变化。我们已经从洞穴画和印刷机转变到互联网、相机、PhotoShop和Snapchat滤镜。
内容创作全民化
所有这些用于创意表达和沟通的技术都对社会和人类关系产生了重大影响。大多数是好的,但也有不好的。
当然,创意表达是传达重要观点和原因的强大工具。
但它同样强大,用于传播错误信息和两极分化。
这一点在历史上的每一个媒体技术迭代中都是真实的;罪犯享受电话和互联网的好处,就像任何守法的办公室工作者一样。
当涉及到创造内容时,合成媒体正在根本地改变我们所知的内容制作。
我们预期的是:
合成媒体将显著加速创意表达。它将赋予创作者权力。它将缩小观念与内容之间的差距。它将开启新的沟通和讲故事的方法。它将实现前所未有的人机接口和数字渠道。它将挑战我们对数字领域开始和结束的概念。对不同媒体格式的文化理解
合成媒体也带来了我们如何消费和语境化媒体的问题。
在过去的两年中,这个新技术类别对社会的影响已经成为新闻界的热门话题。
能够生成好莱坞值得的(或更好的)视觉效果,而无需传统所需的预算、时间或技能,为好与坏都开启了潜力。
那么,当合成媒体接管互联网时会发生什么?
就像历史上的任何新的内容格式一样,消费者会变得更有教养并更好地理解它们:
我们相信,未来几年内,对媒体的文化理解将发生根本性的变化。
内容创作的成本和技能障碍正在消失,新的、改变的沟通形式正在崛起(想想TikTok)。更多的数字渠道将出现,我们将看到比以往更多的个性化媒体。
这将改变我们在个人层面和广泛媒体背景下彼此沟通的方式。
未来是... 合成的!
我们公司在这里的立场是明确的。
我们对即将到来的这个新未来充满热情,我们也意识到我们作为一家公司所承担的责任。
对我们来说,很明显,人工智能和其他同样强大的技术不能将伦理视为事后考虑的事情。它需要被放在前沿和中心,成为公司的一个不可或缺的部分:既反映在公司政策中,也反映在我们正在构建的技术中:我们正处于一个范式转变的初期。内容生产正从物理世界转向计算机,使我们能够做到以前从未能够做到的事情。
不要忘记我们关于在笔记本电脑上制作好莱坞电影的预测。
互联网将从静态、基于文本的互动转变为丰富且交互式的互动,新的沟通模式将永久改变媒体格局。
与任何其他技术一样,我们还不知道最终形态会是什么样子。我们不知道人类创造力与尖端技术之间的相互作用对内容创作和消费的未来意味着什么。
但我们正在关注它 — 充满好奇、乐观,并超越兴奋。