当前位置:首页|资讯|AIGC|人工智能|ChatGPT|DALL·E|Stable Diffusion

AIGC周报|下一个裁谁?老板:问问AI;库克:AI仍有不少问题要解决

作者:学术头条发布时间:2023-05-08

AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。

“新晋流量”ChatGPT的背后,AIGC是“昙花一现”?还是将引领人工智能进入新的时代?「AIGC 周报」将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。

01 技术前瞻

1.OpenAI推出Shap·E,13秒完成出图

随着生成式图像模型的爆炸性增长,人们对为音频、视频和3D资产等模态训练类似的生成式模型的兴趣也越来越大。然而,如何以一种高效生成并易于在下游应用中使用的方式来表示 3D 资产却不太清楚。

该研究提出了一个用于3D资产的条件生成模型Shap·E。与最近产生单一输出表示的3D生成模型不同,Shap·E直接生成隐含函数的参数,这些参数可以被渲染成纹理网格和神经辐射场。

来自OpenAI的研究人员分两个阶段训练Shap·E:首先,他们训练了一个编码器,将3D资产映射为隐含函数的参数;其次,在编码器的输出上训练一个条件扩散模型。当在一个大型的3D和文本数据的数据集上进行训练时,产生的模型能够在几秒钟内生成复杂和多样的3D资产。

下图为由 Shap·E 生成的部分文本条件网格,每个样本在单个NVIDIA V100 GPU上用时13秒生成,且不需要单独的文本-图像模型。

与显式生成模型Point·E相比,Shap·E收敛得更快,且能达到相当或更好的样本质量,尽管它所建模的是一个更高维的、多表现的输出空间。

论文链接:

https://arxiv.org/abs/2305.02463v1

2.为扩散模型增加上下文学习能力

机器学习的最新进展,特别是在自然语言处理(NLP)领域,T5、GPT-3和GPT-4等模型已经成功地应用于情感分析、问题回答、机器翻译和文本生成等任务中,这要归功于这些模型能够从上下文中学习的能力。

通过适当设计提示结构和上下文学习,LLMs可以将多语言任务的预训练结合起来,并很好地泛化到以前未见过的任务中。

该研究提出了一个在基于扩散的生成模型中实现上下文学习的框架——Prompt Diffusion。给定一对特定任务的示例图像,如 depth from/to image 和 scribble from/to image,以及文本指导,该模型可以自动理解底层任务,并根据文本指导在新的查询图像上执行相同的任务。

下图展示了Prompt Diffusion在条件性图像生成任务中的上下文学习能力:在一个由特定任务的图像和文本指导的示例组合的提示下,给定一个新的查询图像,其类型与示例组合中的源图像一致,Prompt Diffusion可以理解所需的任务,并在已见(训练)和未见(新)的任务类型上产生相应的输出图像。

据介绍,Prompt Diffusion是第一个基于扩散的视觉语言基础模型,在训练任务上展示了高质量的上下文生成,并有效地推广到具有各自提示的新的、未见过的视觉任务。

论文链接:

https://arxiv.org/abs/2305.01115v1

3.让你的图表“燃”起来

图像可视化将数据和语义上下文无缝地集成到视觉表现中,以一种既吸引人又充满信息量的方式传达复杂的信息。

广泛的研究致力于开发创作工具,以简化图形可视化的创建。然而,主流工作大多遵循检索和编辑管道,严重依赖于从专用语料库中检索的视觉元素,这通常会损害数据的完整性。文本指导的生成方法正在出现,但由于其预定义的识别实体,可能具有有限的适用性。

该研究提出了一个基于文本到图像生成模型将语义上下文嵌入图表中的新系统——ChartSpark,ChartSpark根据文本输入中传达的语义上下文和嵌入在普通图表中的数据信息生成图形可视化。该方法对前景和背景的图像生成都是通用的,满足了对现有图像可视化的实证研究中所确定的设计实践。

下图为ChartSpark图形可视化的实例。(a)柱状图显示游客在新西兰使用的交通工具类型;(b)散点图显示梅西每个赛季在巴塞罗那俱乐部的总进球数和平均进球数;(c)条形图显示全球种植谷物的农业用地;(d)柱状图显示2021年美国人均每日阅读时间;(e)饼状图显示果汁成分配方;(f)折线图显示印度每年火灾事故数目。

此外,研究团队也开发了一个交互式的可视化界面,它集成了文本分析器、编辑模块和评估模块,使用户能够生成、修改和评估图形可视化。

论文链接:

https://arxiv.org/abs/2304.14630

4.Pick-a-Pic:用于文本到图像生成的用户偏好的开放数据集

一般情况下,只有公司有能力收集文本到图像(text-to-image)模型用户的人类偏好的大型数据集,而公众无法获得这些数据集。

为了解决这一问题,研究团队创建了一个web应用程序,使用户能够生成图像并指定他们的偏好,并以此为基础构建了一个大型的开放数据集Pick-a-Pic,包含了文本到图像的提示和真实用户对生成图像的偏好。

下图展示了Pick-a-Pic数据是如何通过应用程序收集的:(a) 用户首先写一段说明文字,然后会收到两张图片;(b) 用户根据偏好做出判断;(c) 呈现一张新的图片,而不是被拒绝的图片。这个流程不断重复,直到用户改变提示。

另外,研究团队利用这一数据集训练了一个基于CLIP的评分函数PickScore,它在预测人类偏好的任务上表现出了超人的性能。他们还测试了PickScore执行模型评估的能力,发现其与人类排名的相关性比其他自动评估指标更好。

因此,研究团队建议,使用PickScore来评估未来的文本到图像生成模型,并使用Pick-a-Pic提示作为比MS-COCO更相关的数据集。

论文链接:

https://arxiv.org/abs/2305.01569v1

02 企业动态

1.OpenAI在2022年亏损了5.4亿美元

据三位了解OpenAI财务状况的人士透露,该公司由于去年开发了ChatGPT,并从谷歌招聘了关键员工,亏损大约翻了一番,达到5.4亿美元左右。这一此前未公布的数字反映,在该公司开始出售聊天机器人的使用权限之前,其机器学习模型的训练成本高昂。尽管在OpenAI于2月推出付费版聊天机器人后,收入有所增长,但随着越来越多的客户使用其AI技术,以及该公司对该软件未来版本进行训练,这些成本可能会继续上升。Sam Altman私下暗示,公司可能会在未来几年筹集至多1000亿美元资金,以进一步开发AI的能力。

2.new Bing大升级,全面开放无需排队

近日,微软公司在官网宣布了对搜索引擎Bing和Edge浏览器一系列的重磅升级,称这些举措是AI技术的新一轮创新。新闻稿写道,new Bing不再需要“候补名单”,用户只需登录微软账户便可以访问这个结合了GPT-4技术的搜索引擎。“这意味着现在每个人都可以比以往更轻松地试用new Bing和Edge。”另外,微软正在升级bing聊天,让其能给出“更丰富、更直观的答案”,包括图表、图形等新的形式,帮助用户更直观地、更轻松地找到他们想要的信息。

3.微软计划推出在专用云服务器上运行的ChatGPT版本 价格是常规版本的十倍

据两位知情人士透露,本季度晚些时候,微软Azure云服务器部门计划销售一个在专用云服务器上运行的ChatGPT版本,该版本的数据将与其他客户的数据分开保存。知情人士说,这样做是为了让客户放心,他们的秘密不会泄露到ChatGPT的主系统。但这款产品的成本可能是客户目前使用ChatGPT常规版本的10倍之多。

4.Runway融资1亿美元,估值达到15亿美元

AI初创公司Runway已经在D轮融资中筹集到至少1亿美元,估值由此达到15亿美元。据报道,这笔交易使这家初创公司的估值比上一轮增加了两倍。据悉,Runway从一家云服务提供商那里筹集了资金,但具体是哪家公司并不清楚。

5.三星电子禁止员工使用ChatGPT等生成式AI工具

出于安全考虑,三星电子已禁止员工使用ChatGPT、Google Bard和Bing等流行的生成式AI工具,正准备推出内部工具。公司内部备忘录显示,三星电子担心传输到生成式AI平台的数据被存储在外部服务器上,导致其难以被追回和删除,并可能最终被泄露给其他用户。此前,摩根大通、美国银行和花旗等华尔街大行已禁止或限制使用ChatGPT。

6.欧美AI竞争暗流涌动:法国“ChatGPT克星”正计划启动融资

据悉,总部位于法国巴黎的AI初创公司Mistral AI正在计划启动第一轮融资。此前,有法国媒体将其称为“欧洲的OpenAI”以及“法国对抗ChatGPT的秘密项目”。据了解,这家神秘的初创公司是由前Facebook AI Research(FAIR)的Guillaume Lample和DeepMind的Arthur Mensch联合创办的。上周,Mistral汇集了法国前沿的研究人员,他们在谷歌、Meta等科技巨头有多年的工作经验。

7.亚马逊计划利用AI为广告商生成照片和视频

亚马逊正在组建一个AI工具开发团队,为商家在其平台上的广告活动中生成照片和视频,此举可能有助于实现其广告业务的多元化。目前,亚马逊的广告业务主要集中在帮助商家提高搜索结果的广告上,然而,亚马逊如今正试图建立一个更广泛的广告业务,包括在其免费视频流媒体服务Freevee上出售广告位,以及在Prime Video的周四晚间橄榄球转播期间出售广告位。该公司还在亚马逊音乐上销售音频广告,甚至在亚马逊生鲜杂货店的屏幕上播放数字广告等。

8.下一轮裁员会有谁?老板可能要听AI的建议

法国初创公司Pigment正在测试一种或许会被首席财务官们喜爱的生成式AI工具——Pigment AI。这款产品将聊天机器人放在用于制定财务计划的电子表格和仪表板中,旨在梳理公司数据并回答诸如“如果我们提前三个月推出新产品该怎么办?”“未来一年该如何使收入增加一倍?”之类的问题。Pigment联席首席执行官Romain Niccoli表示,虽然AI可以通知一家公司做出裁员决定,最终做决策的还是人。“AI只是告诉你结果,但不会为你做决定。”如果有一天你被解雇了,很可能不会知道这背后还有AI的“一份力”。

03 政策法规

1.白宫宣布首个AI监管计划:拨款1.4亿美元用于新的AI研究中心

白宫官员表示,美国国家科学基金会计划拨款1.4亿美元用于新的AI研究中心,还承诺发布指导方针草案,以确保对AI的使用保障“美国人民的权利和安全”。几家AI公司已同意在8月的一次网络安全会议上提交其产品以供审查。

2.英国将对AI相关的竞争和消费者保护进行评估

英国竞争和市场管理局表示,将对AI基础模型开发和使用中的竞争和消费者保护因素进行评估。这一评估将研究AI基础模型及其使用的竞争性市场可能如何发展,这些情况可能给竞争和消费者保护带来的机会和风险,并制定指导原则以在这些模型发展过程中支持竞争和保护消费者。AI基础模型包括大型语言模型和生成式AI。

04 专家观点

1.AI教父Geoffrey Hinton:AI对世界的威胁比气候变化“更紧迫”

近日,图灵奖得主、深度学习三巨头之一Geoffrey Hinton表示,相较于气候变化,AI可能是对人类“更紧迫”的威胁。他认为,人类在应对气候变化方面,相对而言,更容易提出一些有效的应对策略,比如减少碳的排放,“如果你这样做,最终一切都会好起来的”。但对于AI可能带来的风险,根本不知道如何下手。

2.Sam Altman:OpenAI早已不使用客户数据来训练模型

近日,OpenAI首席执行官Sam Altman表示,公司已经“有一段时间”没有使用付费客户的数据来训练大型语言模型了。他在采访中说道,“用户们显然希望我们不要使用他们的数据进行训练,所以我们改变了我们的计划,未来我们也不会这样做了。”今年3月1日,OpenAI悄然更新了其服务条款:“不会使用通过其API提交的任何数据来‘服务改进’,包括AI模型训练,除非客户或组织选择加入。”

3.中信证券:持续看好全球AI领域的投资机会

中信证券研报指出,ChatGPT在全球AI产业、技术领域带来的良好示范效应,有望推动AI算法模型结束当前的技术路线分叉,并不断向以GPT为主导的大型语言模型靠拢,加速全球AI产业“工业化”时代到来。对于中期最具确定性的产业方向之一,中信证券持续看好全球AI领域的投资机会,并建议持续聚焦芯片、算力设施、模型架构&工程实践、应用场景等核心环节。

4.苹果CEO库克认为AI仍有不少问题需要解决

苹果公司首席执行官库克对不断涌现的AI新应用表示谨慎乐观,他指出虽然这项技术潜力巨大,但“还有不少问题需要解决”。库克在财报电话会议上表示,苹果已经在大部分产品中使用了AI技术,其中包括智能手表的摔倒检测等功能。他说,苹果将继续在更多产品中加入这项技术,但会考虑周全。库克表示苹果已经在AI方面取得显著进展。苹果是最早应用AI的主要科技公司之一,但并没有像亚马逊等公司那样激进地推进。

5.李彦宏:“文心一言与ChatGPT差距两个月”的说法有点被断章取义

李彦宏在内部“新使命六周年暨百度骄傲颁奖典礼”上发表讲话时回应了与ChatGPT差距为两个月的说法:“前一段时间我接受采访时说,我们跟ChatGPT的差距大约是两个月,但说实话这有点断章取义。我后面紧接着还说,这不是重点,重点是这两个月的差距我们要用多长时间才能赶上,也许很快,也许永远也赶不上。”


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1