AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。“新晋流量”ChatGPT的背后,AIGC是“昙花一现”?还是将引领人工智能进入新的时代?「AIGC 周报」将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。
一、技术前瞻
1.“让他看起来像梵高”,文本编辑3D场景
为了使用指令编辑 3D 场景,这项研究提出了 Instruction-NeRF2NeRF,给定一个场景的 NeRF(Neural Radiance Fields)和用于重建它的图像集合,使用图像条件扩散模型 (InstructPix2Pix) 进行迭代编辑输入图像,同时优化基础场景,从而产生遵循编辑指令的 3D 场景。
这项研究所提出的方法能够编辑人、物体和大型场景,完成比以前工作更真实、更有针对性的编辑。例如,下图展示了将给定的 NeRF 场景基于文本指令(“给它一个牛仔帽”、“把他变成一个小丑”等)生成的结果。
然而,这一方法存在一定局限性。如果 InstructPix2Pix 无法在 2D 中正确地执行编辑,这一方法会在 3D 中失败;有时尽管在 2D 中完成正确编辑,但存在很大的不一致性,这一方法同样无法在 3D 中有效整合信息。
论文链接:
https://arxiv.org/abs/2303.12789
2.微软研究院154页报告:“看到了通用人工智能的火花”
AI 研究人员一直在开发和改进大型语言模型,这些模型在各种领域和任务中展现出卓越的能力,挑战了公众对学习和认知的理解。OpenAI 开发的新模型 GPT-4 使用前所未有的计算和数据规模进行训练。这项研究证明,GPT-4 达到了一种通用智能的形式,确实展示了通用人工智能(AGI)的火花。
GPT-4 的核心心理能力(如创造力和推理)、获得专业知识的主题范围(如文学、医学和编程)以及能够执行的各种任务(如玩游戏、使用工具等)都证明了这一点。
例如,下图中第一张图片是 Wassily Kandinsky 的艺术作品 Composition 8,第二张和第三张图片分别由 GPT-4 和 ChatGPT 制作,提示为 “生成 Javascript 代码,创建一个看起来像 Wassily Kandinsky 画作的随机图形图像”。
然而,要创建一个符合完整 AGI 条件的系统,还有很多工作要做:置信度校准;长期记忆;持续学习;个性化;规划和概念飞跃;透明度、可解释性和一致性;认知谬误与非理性;对输入敏感的挑战。
论文链接:
https://arxiv.org/abs/2303.12712
3.大模型该怎样理解现实世界的会话?
视觉信息是对话的核心。例如,身体特征和面部表情有助于超越语言的理解。然而,到目前为止,大多数神经会话模型仅限于文本。如今,一项新的研究提出了一种可以解释视觉上下文的对话生成模型——CHAMPAGNE。
为了训练 CHAMPAGNE,研究团队收集并发布了 YTD-18M,一个基于 18M 视频对话的大规模语料库,来自于公共视频及其相关转录本。人工评估表明,YTD-18M 比之前的资源更加敏感和具体,同时保持了视觉基础。
实验表明:CHAMPAGNE 在各种现实世界的对话任务中表现出了强大的性能,这表明基于视频的对话可以帮助模型了解现实世界。当进行微调时,它在四个侧重于真实世界对话的视觉语言任务中取得了最好的结果。
论文链接:
https://arxiv.org/abs/2303.09713
4.生成一双更“邪恶”的运动鞋,GAN+符号学
一项新的研究表明,由生成对抗网络(GAN)生成的图像可以使用符号和抽象概念进行修改。正如可以修改图像的色调和饱和度等物理属性一样,使用这一方法也可以修改其非物理的抽象属性。
例如,可以修改空乘人员制服的设计,使其看起来更 “警觉”、不那么 “严肃” 或更 “实用”。房子的形式可以被修改以显得更 “未来主义”,汽车更 “友好”,一双运动鞋更 “邪恶”。这一方法揭示了与感兴趣的符号属性相关的潜在视觉图像,从而实现了使用抽象概念进行视觉形式查找的过程。
如下图所示,采集的种子图像被变换以显示更多(右)或更少(左)的符号属性呈现。上排代表 “邪恶” 的跑鞋,下排代表 “最小” 的猫。
参考链接:
https://arxiv.org/abs/2303.12731
5.未完成的建筑怎么办?AI帮助“修复”
AI 的发展为完成未完工建筑的可能性的提出开辟了新的途径。具体来说,最近出现的 DALL·E、Midjourney、Stable Diffusion 等工具,使用数亿或数十亿的文本/图像对进行训练,并使用具有数千万或数亿参数的模型,能够在文本描述的指导下完成图像。
研究显示,DALL·E 2 工具为完成未完成的立面而生成的结果通常与基于 AI 能够在网络上识别的图形资源的真实感重建的预期结果一致,它有更加规律的操作方式并能系统地提出恢复建议。例如,针对圣洛伦佐大教堂(佛罗伦萨),从左到右分别是当前状态和使用 DALL·E 2 生成的两个连续恢复建议。
然而,就像 19 世纪时一样,当建筑师相信他们有能力为未完成的项目推导出正确的解决方案时,图像完成工具所产生的期望似乎正引导我们走上类似的道路。
参考链接:
https://arxiv.org/abs/2303.12732
6.谷歌新模型“以假乱真”,主题驱动的文本到3D生成
谷歌发布的一项新研究提出了 DreamBooth 3D,这是一种基于 3-6 张普通拍摄的图像、个性化的 “文生3D” 的方法。这一方法将 “文生图” 个性化模型(DreamBooth)以及“文生3D”模型(DreamFusion)进行了有效结合。
研究发现,由于 “文生图” 模型过度拟合了被试的输入观点,将这些方法简单地结合在一起无法产生令人满意的特定主题的 3D 资源。研究团队通过三阶段优化策略——利用 NeRF(将全连接神经网络引入到物体的 3D 场景表示中)的 3D 一致性和 “文生图” 模型的个性化能力,解决了这一问题,从而可以通过文本驱动的修改来生成高质量的、针对特定对象的 3D 资源,如在任何对象的输入图像中都看不到的新颖姿势、颜色和属性。
下图展示了这一方法可以基于给定图像(3 张)和文本提示(“蓝领带” 或 “睡眠”)产生的不同 3D 主题。
参考链接:
https://arxiv.org/abs/2303.13508
7.在ChatGPT上的评估不太可信
ChatGPT 是第一个被大众大量使用的大型语言模型,在许多自然语言任务中表现出了亮眼的性能。尽管 ChatGPT 具有明显的实用性,但由于模型的封闭性及其通过从人类反馈中强化学习的持续更新,评估它在不同问题领域的性能仍然具有挑战性。因此,为了确保模型的公平可评估性,建议模型创建者:
(1)更加关注训练数据集并记录潜在的数据污染;
(2)创建机制,通过该机制可以仔细检查训练数据集和模型的数据泄露情况;
(3)建立系统,防止用户输入造成的数据污染。
参考链接:
https://arxiv.org/abs/2303.12767
二、企业动态
1.OpenAI:我们将重建信任
3 月 24 日,OpenAI 发布声明,向用户和整个 ChatGPT 社区道歉,表示将重建信任。声明表示,本周早些时候,该公司将 ChatGPT 下线,原因是开源库中存在漏洞。该漏洞目前已被修复,同时 OpenAI 也披露了更多的技术细节。
具体而言,存在的漏洞致使一些用户可以看到另一用户的聊天记录标题。如果两个用户大约同时处于活动状态,那么新创建的对话的第一条消息也可能在其他人的聊天记录中可见。经过更深入的调查,发现同样的错误可能导致 1.2% 的 ChatGPT Plus 订阅者在特定的 9 小时窗口内处于活跃状态,从而无意中看到了与支付相关的信息。
参考链接:
https://openai.com/blog/march-20-chatgpt-outage
2.微软警告:新推的AI工具不得使用必应数据库,否则限制访问
据财联社报道,微软对其搜索引擎竞争对手发出警告,称如果对手公司继续将微软的搜索索引数据库作为其 AI 聊天产品的基础,微软将切断这些公司对其数据的访问。
目前,微软已将其必应搜索索引中的数据授权给了几家提供网络搜索的公司,如阿波罗全球管理公司旗下的雅虎和 DuckDuckGo。
据知情人士透露,微软已经告诉至少两名客户,使用必应搜索索引为他们的 AI 聊天工具提供信息违反了他们的合同条款,微软可能会终止向这些企业提供访问数据库的许可证。
3.美国数据仓库巨头发布开源模型,公开挑战ChatGPT
据第一财经报道,总部位于美国旧金山的初创公司 Databricks 于 3 月 24 日发布了一款 AI 聊天机器人的代码。Databricks 称公司可以像 OpenAI 一样,使用这些代码创建自己的聊天机器人,并将代码开源。
Databricks 首席执行官 Ali Ghodsi 表示,将该模型开源的意图很明确,就是为了展示一种可行的 ChatGPT 的替代方案。不过,该公司还没有发布正式的基准测试,来比较该模型与 ChatGPT 的性能高低。
4.OpenAI官宣:ChatGPT可以联网了
3 月 23 日,OpenAI 官方宣布,ChatGPT 终于可以联网了。据官方博客介绍,此次 “联网” 功能的实现得益于 OpenAI 为 ChatGPT 增加了插件使用功能,“插件是专门为语言模型设计的工具,以安全为核心原则,并帮助 ChatGPT 访问最新的信息、运行计算或使用第三方服务。”除了检索实时信息外,ChatGPT 还获得了检索知识库信息(如公司文件、个人笔记等)、代表用户执行操作(如订机票、订餐等)的能力。(点击查看详情)
5.Adobe发布AIGC工具:将想象带入现实世界
3 月 22 日,Adobe 推出了创意生成式 AI 模型集 Adobe Firefly,并宣布未来不久将其集成到 Adobe 的产品中。用户可以使用 Adobe Firefly 进行实验、想象和无限范围的创作,在不取代人类想象力的情况下扩大创造力和智慧,在数码成像和摄影、插图、艺术品和平面设计、视频、营销和社交媒体、3D 建模等方面探索各种可能性。(点击查看详情)
三、政策法规
1.美国作家协会:AI 是对被“喂养”内容的回流
3 月 23 日,WGA(美国作家协会)发布公告称,其在与电影电视制片人联盟(AMPTP)的合同谈判中提出一项提案,该提案确保了电影公司不能使用 AI 来破坏编剧的工作标准,包括薪酬、剩余报酬、独立权利和演职员表。
WGA 的提案将禁止把 AI 生成的内容用作源材料或重写 WGA 与 AMPTP 达成的协议所涵盖的工作,理由是 AI 生成的内容是通过摄取公共领域中受版权保护的内容和文本来创建的。WGA 和 AMPTP 关于该合同的谈判将在未来两周内继续进行。
参考链接:
https://twitter.com/WGAEast/status/1638643976109703168
四、专家观点
1.周鸿祎:预计GPT-6到GPT-8将会产生意识
据《科创板日报》报道,360 集团创始人周鸿祎表示,中国大型语言模型技术水平和 GPT-4 的差距在 2 到 3 年的时间,目前 GPT 的技术方向已经明确,不存在难以逾越的技术障碍,中国企业应当坚持长期主义精神,迎头赶上。
周鸿祎预计,GPT-6 到 GPT-8 将会产生意识,变成新物种。未来,AI 大语言模型有可能实现自我进化,自动更新系统和自我升级,或者指数级进化能力,人类将会面临不可预知的安全挑战。
2.Geoffrey Hinton:或许更快进入AGI时代
近日,AI 教父 Geoffrey Hinton 表示:“直到最近,我还认为我们仍需要 20 到 50 年的时间才能拥有 AGI。现在,我认为可能只需要 20 年或更短的时间……” 谈及 AI 试图消灭人类的可能性,Hinton 认为,“这并非难以置信,更大的问题是人们需要学会管理一项可以赋予少数公司或政府巨大权力的技术。”
参考链接:
https://www.cbsnews.com/news/godfather-of-artificial-intelligence-weighs-in-on-the-past-and-potential-of-artificial-intelligence/
3.比尔·盖茨:一个新时代已经开始
“AI 与手机和互联网一样具有革命性。在我的一生中,我见过两次让我印象深刻的革命性技术演示。第一次是在 1980 年,当时我接触到了图形用户界面——每个现代操作系统的先驱,包括 Windows;第二个大惊喜发生在去年,我看到 OpenAI 的 ChatGPT 通过大学预修生物学考试。无论如何,在可预见的未来,AI 主题将主导公众讨论。”
同时,盖茨提出了三个原则:“首先,我们应该尝试平衡对 AI 缺点的恐惧与它改善人们生活的能力。其次,市场力量不会自然而然地生产出帮助最贫困人群的 AI 产品和服务。有了可靠的资金和正确的政策,政府和慈善机构可以确保 AI 被用来减少不平等。正如世界需要最聪明的人专注于解决最大的问题一样,我们也需要让世界上最好的 AI 专注于解决最大的问题。最后,我们才刚刚开始了解 AI 的成就,它今天的任何限制都会在我们知道之前消失。”
参考链接:
https://www.gatesnotes.com/The-Age-of-AI-Has-Begun
4.Cristiano Amon:5G将助力AI扩展,使数据可与其他设备及云端共享
据澎湃新闻报道,高通公司总裁兼首席执行官 Cristiano Amon 在中国发展高层论坛 2023 年会上演讲称,5G 是实现数字社会的重要基础设施,将助力 AI 扩展,为边缘计算和端侧 AI 带来诸多益处。数字化转型将实现人与万物智能互联。这也意味着超高速、可靠连接随时随地、始终连接到云端,具有嵌入式处理器和 AI 的一系列设备,以及数字孪生的普及。