AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。
“新晋流量”ChatGPT的背后,AIGC是“昙花一现”?还是将引领人工智能进入新的时代?「AIGC 周报」将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。
交互式prompt系统:让文生图模型更懂你
文生图模型展示了基于文本提示生成高质量图像的能力。然而,写出准确理解用户创作意图的提示仍然不太容易。它通常涉及费时费力的反复试验过程。
为了应对这些挑战,该研究提出了 Promptify,这是一个交互式 prompt 系统,利用由大型语言模型提供支持的建议引擎,来帮助用户快速探索和写出各种提示。
如下图,Promptify 允许用户灵活地组织生成的图像,并且根据他们的偏好,对原始提示进行更改。这个反馈循环,使用户能够不断改进他们输入的 prompt,并增强所需的功能,避免不需要的功能。
该研究表明,Promptify 能有效地促进文生图的工作流程,且优于现有基线工具。下图展示了使用 Promptify(上排)和 Automatic1111(下排)生成图像的示例。
论文链接:
https://arxiv.org/abs/2304.09337
“即插即用”的组合推理框架
大型语言模型在各种自然语言处理任务中展现出了亮眼的能力。然而,它们大多数依然面临着固有的局限性,比如无法获取最新的信息,无法利用外部工具,也无法进行精确的数学推理(ChatGPT Plus 除外)。
为解决这些问题,该研究提出了一个即插即用的组合推理框架 Chameleon。它将各种程序集成为各种工具,包括大型语言模型、视觉模型、网络搜索引擎、Python 函数以及根据用户兴趣定制的基于规则的模块。
如下图,作为一个自然语言规划器,Chameleon 在接收到一个任务后,会推断出一个适当的工具序列,然后执行,从而产生一个最终的结果。
值得注意的是,使用 GPT-4 的 Chameleon 在 ScienceQA 上取得了 86.54% 的准确率,比已公布的最佳几率模型提高了11.37%。
进一步的研究表明,与 ChatGPT 等其他大型语言模型相比,使用 GPT-4 作为规划器显示出更一致和合理的工具选择,并且能够推断出给定指令的潜在约束。
论文链接:
https://arxiv.org/abs/2304.09842
“看”见音乐:用于音乐可视化的文生视频模型
视觉效果是音乐体验的核心部分,因为它们可以放大通过音乐传达的情感和信息。然而,创建音乐可视化是一个复杂、耗时且资源密集的过程。
该研究提出了 Generative Disco,这一生成式 AI 系统可以使用大型语言模型和文生图模型帮助生成音乐可视化。用户选择要可视化的音乐间隔,然后从音乐片段(描绘为波形)中,系统引导用户生成连接声音、语言和图像的提示,一对开始和结束提示可以参数化视频剪辑的生成。
该研究引入了用于改进生成的视频的设计模式:“过渡”,表示颜色、时间、主题或风格的变化,以及 “保持”,鼓励视觉强调和一致性。研究表明,该系统令人愉快、易于探索且表现力强。
参考链接:
https://arxiv.org/abs/2304.08551
为文生图模型提供“参考”
基于扩散模型的文生图模型,在生成高保真图像方面显示出令人惊讶的能力。为了进一步提高可编辑性并实现精细化生成,该研究引入了一个多输入条件的图像合成模型,将草图作为一个新的模态,与参考图像一起纳入。
该框架可以对一个预先训练好的扩散模型进行微调,利用参考图像完成缺失区域,同时受草图的约束。如下图,用户可以通过提供参考图像和草图来编辑场景,在两种模式的指导下改变前景和背景,并获得高质量的结果。
该研究使得用户能够在扩散过程中充分利用部分草图和参考图像,从而控制输出的结构,实现对任意场景的修改。
论文链接:
https://arxiv.org/abs/2304.09748
AI生成新闻,开启卷轴叙事
短视频是许多年轻人寻找和消费内容的主要方式。新闻媒体希望以新闻卷轴的形式将短视频呈现给观众,但目前很难将传统新闻格式转化为与平台风格相匹配的简短、有趣的视频。
围绕新闻故事构建卷轴式叙事的方法有很多种,从中选定出某一种是一项挑战。这是因为不同的新闻故事需要不同的框架。因此,需要在娱乐和信息之间进行不同的权衡。
为了解决这个问题,该研究展示了一个名为 ReelFramer 的系统,这是一个共同创建系统,支持记者基于新闻印刷品创建新闻卷轴。该系统由框架和脚本编写、角色板和故事板三个阶段组成,能简化新闻卷轴创作的构思和原型过程。
下图展示了使用 ReelFramer 创建的新闻卷轴的静态截图。这部影片用角色扮演的方式为一篇关于康菲石油公司在阿拉斯加钻探石油的新闻文章进行展示。ReelFramer 可以帮助用户有效地探索设计空间,并为他们提供一个好的起点,大大降低了将文章转换为新闻卷轴的难度。
论文链接:
https://arxiv.org/abs/2304.09653
谷歌人工智能Bard学会写代码
4 月 21 日,谷歌生成式模型的首席产品经理 Paige Bailey 表示,Bard 目前能做的事情包括写代码、修正代码里的 Bug,以及解释代码的用处,支持 C++、Java、Python 等20多种编程语言。同时,用户能将 Bard 生成的 Python 代码导出到 Google Colab 上——甚至无需复制粘贴。Bard 还能够协助 Google Sheets 编写函数。
同时,谷歌也表示,Bard 仍处于早期试验阶段,写出来的代码可能会达不到用户的预期,无法跑通或者压根没写完。所以用户必须始终仔细检查Bard的回复,在使用代码前仔细检查是否存在错误或漏洞。
参考链接:
https://blog.google/technology/ai/code-with-bard/
BOSS直聘:28%的职业有ChatGPT技能要求
作为一种现象级的大型语言模型,ChatGPT 在各种现实世界的任务中取得了无与伦比的成功,并在我们的日常生活和工作中发挥着越来越重要的作用。然而,许许多多的人也对潜在的道德问题提出了广泛的担忧,尤其是关于类似 ChatGPT 的 AIGC 是否会取代人类工作。
这项研究从人类与人工智能共生而非人类与人工智能对抗的角度,对 ChatGPT 支持的劳动力市场的未来进行了初步的数据驱动的研究。具体来说,通过对国内最大的在线招聘平台 BOSS直聘 的大规模招聘数据进行了深度分析。结果表明,当前劳动力市场中约有 28% 的职业需要 ChatGPT 相关技能。
此外,基于大规模的以职业为中心的知识图谱,这项研究开发了一种语义信息增强的协同过滤算法来预测劳动力市场中未来的职业-技能关系。结果发现,未来有 45% 的职业需要 ChatGPT 相关的技能。特别是,与技术、产品和运营相关的行业预计会对 ChatGPT 相关技能有更高的熟练度要求,而制造业、服务业、教育和健康科学相关行业对 ChatGPT 相关技能的要求会更低。
论文链接:
https://arxiv.org/abs/2304.09823
“Google DeepMind”成立
4 月 21 日,Google CEO Sundar Pichai 宣布,将 DeepMind、Google Brain 合并,成立 Google DeepMind。在谷歌计算资源的支持下,将所有这些人才整合到一个专注的团队,大大加快 Google 在人工智能方面的进展。据透露,Google DeepMind 的第一个项目将是一系列功能强大的多模态人工智能模型。(点击查看详情)
昆仑万维正式发布千亿级大语言模型“天工”
4 月 17 日,昆仑万维正式发布千亿级大语言模型“天工”,同时宣布即日起启动邀请测试。从“天工”目前发布版本来看,最高已能支持 1 万字以上文本对话,实现 20 轮次以上用户交互。
日本三大金融集团利用生成式AI减轻工作量
日本三大金融集团加入了生成式 AI 的行列,开始采用 AI 驱动的聊天机器人来帮助完成报告和其他内部任务。此外,三菱日联金融集团计划在今年夏天推出 ChatGPT。
Stability AI:发布开源大语言模型StableLM
Stability AI 是开源 AI 画图工具 Stable Diffusion 背后的公司。在上周三,Stability AI 发布了StableLM,宣布其语言大模型现已可供开发人员在 GitHub 上使用和改编。StableLM 模型目前可用版本的参数在 30 亿到 70 亿之间,未来将有 15 亿到 650 亿范围的多种参数模型可用。与GPT-4等超级大模型不同,Stability AI的产品可供每一个人下载并部署在本地。
参考链接:
https://mp.weixin.qq.com/s/GS7vxPvpMTWesnegDAF0Pw
Stack Overflow:将向AI巨头收取训练数据费用
Stack Overflow 是一个流行的计算机编程帮助互联网论坛,其首席执行官 Prashanth Chandrasekar 表示,计划最早在今年年中开始向大型 AI 开发人员收取访问其服务中 5000 万个问题和答案的费用。Chandrasekar 说:“为 LLM 提供动力的社区平台绝对应该因其贡献而得到补偿,这样像我们这样的公司就可以重新投资回我们的社区,继续让他们蓬勃发展。”
参考链接:
https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/
Reddit:将向AI公司收取API使用费
Reddit 是一个拥有 18 年历史的社交媒体平台,用户可以在上面发帖、评论、交流各种话题。为确保开发人员拥有继续安全使用 Reddit、保护用户的隐私和安全并遵守当地法规所需的工具和信息,推出了一个“新的高级接入点”,专门针对那些想要使用其 API 训练 AI 聊天机器人的第三方。
Reddit 还没有公布具体的收费标准,但表示会分为不同的等级,根据使用者的规模和需求来区分。Reddit 还表示,这一举措不会影响那些使用其 API 来创建和维护内容审核工具的人,会为他们提供专门的 iOS 和 Android 应用程序,这些应用程序将具有模组日志、规则管理工具、模组队列信息等功能。这一条款将在 2023 年 6 月 19 日起实行。
参考链接:
https://www.reddit.com/r/reddit/comments/12qwagm/an_update_regarding_reddits_api/
横须贺成为日本第一个使用ChatGPT执行行政任务的城市
上周四,横须贺市提出了一项新声明,称它是该国第一个在其市政办公室使用 ChatGPT 的城市。横须贺市政府办公室的大约 4000 名员工开始使用 ChatGPT,进行为期一个月的试用,以改善运营。
横须贺市数字管理部门的公共关系代表 Takayuki Samukawa 说,在横须贺,一个团队聚集在一起思考 ChatGPT 可以为这座城市带来好处的方式。通过试用期,该市希望利用该工具协助完成营销和传播的总结、复制构思、起草行政文件的基础和完善通俗易懂的语言等任务。
此举是在 OpenAI 首席执行官 Sam Altman 访问日本之后进行的,其中包括本月早些时候与日本首相会面,这是他自聊天机器人推出以来的首次海外访问。Altman 还宣布 OpenAI 的目标是在不久的将来在日本开设办事处。
参考链接:
https://www.japantimes.co.jp/news/2023/04/20/national/chatgpt-yokosuka-trial/
ChatGPT和AI在欧洲将面临新的监管
据财联社报道,近日,欧盟立法者希望赋予监管机构新的权力,以管理 ChatGPT 等技术的发展,这或许是西方加码人工智能监管力度最大的一次。欧盟议员在公开信中表示,近几个月来人工智能的飞速发展表明,需要一套针对强大的通用人工智能工具量身定制的新规则。据《华尔街日报》看到的信件副本显示,这些议员负责起草该集团所谓的《人工智能法案》,他们致力于在法案中增加条款,引导强大的人工智能朝着以人为本、安全可靠的方向发展。议员们写道:欧盟的政策制定者计划在今年晚些时候通过这项潜在的法案,“可能会成为世界各地不同监管传统和环境也会参考的蓝图”。
爱尔兰官员:不要匆忙出台站不住脚的禁令
近日,爱尔兰数据保护委员会负责人Helen Dixon表示,以ChatGPT为代表的 AIGC 固然需要受到监管,但监管机构必须先弄清楚如何正确地做到这一点,而不是匆忙出台站不住脚的禁令。Dixon表示:“它需要受到监管,现在的问题是弄清楚如何对它进行适当的监管。对于爱尔兰数据保护委员会来说,我们正努力了解这项技术、大型语言模型以及训练数据的来源。”
“印度比尔盖茨”:人脑永远优于AI
据财联社报道,近日,印度信息技术服务巨头 Infosys 的创始人、号称“印度比尔·盖茨” Narayana Murthy 表示:“ChatGPT是知识生成的一个很好补充,可以用来完成某些任务,比如写一篇文章……但我仍非常相信人类的大脑是最强大的想象力和机器。没有什么能打败人类的思想。”他认为,人与人之间的区别在于人类的思维。这意味着,更聪明的人将能够更好地利用 ChatGPT。
虚拟现实教父Jaron Lanier:There Is No A.I.
“我们需要改变思维方式,接受艰苦的改造工作。通过坚持过去的想法——其中包括对人工智能独立于为其做出贡献的人而独立生活的可能性的迷恋——我们冒着以让世界变得更糟的方式使用我们的新技术的风险。如果社会、经济、文化、技术或任何其他活动领域要为人们服务,那只能是因为我们决定人们享有特殊的服务地位。我恳求所有同事:想想人,人是比特问题的答案。”
周鸿祎:360每一位员工、每个产品和业务都要全面拥抱AI
近日,周鸿祎发布主题为“三六零人工智能总动员”的内部信,要求360每一位员工、每个产品和业务都要全面拥抱人工智能,适应人机协作,着手产品重塑。
周鸿祎在内部信中表示,大语言模型是场新工业革命,任何APP、软件、网站和应用都值得被重塑。GPT和百行千业的深度结合将直接改变行业竞争格局,搭不上这班车的企业就会被淘汰。
周鸿祎还透露,结合GPT能力的智能浏览器、AI生图工具和企业智能营销云很快将面向B端用户开放测试。
此外,360集团将推行“揭榜挂帅”制,招募更多员工加入大语言模型的核心研发。“有好奇心、能和GPT协同办公的360员工不会被GPT淘汰。”周鸿祎称,并鼓励所有员工拥抱GPT,借助GPT拿到更好的绩效。
IT时报 2024-12-22
车视界科技 2024-12-22
IT之家 2024-12-22
车视界科技 2024-12-23
IT时报 2024-12-22
钛媒体APP 2024-12-22
雷科技 2024-12-22
IT时报 2024-12-22