今天分享的是AIGC系列深度研究报告:《AIGC专题报告:海外AI应用落地进展梳理,AIGC商业化浪潮将至》。
(报告出品方:东方证券)
报告共计:25页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
距离 ChatGPT 的面世即将满一年,大模型带来的技术革命也催化了大量的 AI 应用涌现,现在这些应用也逐步进入了商业化落地的阶段。海外的 AI 应用由于起步较早,已经有大量的 AI 应用的商业化走在前列。本文将从海外各类 AI 应用落地进展的更新角度入手,尝试分析目前 AI 应用商业化的发展已经达到什么阶段,并对国内相应的 AI 应用节赛进行展望。
1.1 科技巨头: Al 全产业链布局,应用端加速推广
海外科技巨头多数进行 Al全产业链布局,正在加速应用端落地。自 ChatGPT 带来的大模型浪潮启动以来,微软、谷歌、亚马逊、Meta等海外科技巨头扮演了本次AI大模型浪潮中的重要角色,多数巨头布局了从 AI 芯片到大模型到 AI 应用的全系产业链。微软在 3 月公布的 Microsoft 365Copilot 是人们对于基于大模型的 AI 应用的初步想象,经过半年多的研究与发展,近期各家巨头厂商在应用端的更新也更加频察,应用端落地正在加速。
1.1.1 微软: 365 Copilot 即将上线,大模型嵌人全系软件生态
微软逐步将大模型接入全系软件生态中,c 端用户可以基于同一个底层逻辑体验 AI 能力。3 月份公布的 Microsoft 365 Copilot 让世界初窥了接入大模型的 AI 应用可能形态,但微软从 2022 年就一直在不断地探索大模型在旗下各类软件中的结合应用,如今微软已经将大模型能力拓展到了旗下多款应用产品中。9月21日,微软在发布会上推出了跨设备、跨操作系统、跨应用程序的 AI伴侣助手 Copilot,用户可以在 Windows 11、Microsoft 365 以及 Edqe 和 Bing 的浏览器中使用。Copilot 在 9 月26 日作为 Windows 11 免费更新的一部分正式上线,并将于今年秋天加入到 Bing和 Edge 浏览器以及 Office 应用中。
全新 Windows 11 提供 150 多项新功能,Copilot 把生成式 AI 能力无缝加入到多款应用中。 Copilot 从操作系统层级提供了强大的 AI 能力,在下一个 Windows 版本中,原生的画图、照片、 剪贴板、记事本等应用程序都将迎来能力升级,例如画图应用新增了背景移除和图层功能,照片 应用新增了图像编辑、背景虚化等功能。Outlook 也加入了 Copilot 的辅助,新版 Outlook 允许用 户在一个应用中连接并协调各种账户(包括 Gmail、Yahoo、iCloud 等)。用户可以让 Copilot 生 成电子邮件,并从 OneDrive 无缝附加重要文件和照片等。
Bing 和 Edge 浏览器新增更多 AI 功能。在更新后的 Bing 和 Edge 浏览器中,微软新增了几个新 的 AI 功能,包括:
1)个性化答案,用户的聊天记录可以为结果提供参考;
2)Microsoft 购物 Copilot,用户可以通过 Bing 或 Edge 更快地找到在线购物的商品,并且可以智能读取到最优惠的 价格;
3)Bing 的图像创建器将更新为 OpenAI 的最新模型 DALL·E 3,图像生成质量迎来大幅 提升,微软还将 Microsoft Designer 直接集成到了 Bing 中,用户可以更轻松地编辑作品;
4)内容证书,Bing 中所有 AI 生成的图像将自动添加隐形数字水印,包括最初创建的时间和日期。另外,画图和 Microsoft Designer 中也增添了此功能。
针对B端用户,Microsoft 365 Copilot 将于 11月1日面向企业用户全面推出。企业用户是Al 应用商业化的重要收入来源,微软此次正式宣布 365 Copilot 开启商用,是 A 应用落地的一大步。此外,微软还为 365 Copilot 推出了一项新功能: Microsoft 365 Chat, Microsoft 365 Chat 最初的名称是 Business Chat,经过几个月的飞速发展,现在已经提升到了一个全新的高度。它可以梳理工作中的所有数据,包括电子邮件、会议、聊天、文档等。就像一个助手,它可以对用户、用户的工作、优先事项和组织有深入的了解,无论是撰写战略文件、预订商务旅行,还是处理电子邮件,它都能解决最复杂、最乏味的任务。
微软 Power Platform Copilot 能力迎来更新。Power Platform 是微软的低代码平台,是微软布局企业服务领域的重要抓手。在 3 月份微软就推出了 Power Platform Copilot,通过 AI 大模型驱动的方式重塑软件开发。在10 月初的 Power Platform 大会上,微软针对 Power Platform 推出了多项人工智能更新,一是在低代码应用开发中,Copilot 能够支持开发者用自然语言输入进行更加复杂的应用开发,包括添加多个 Dataverse 作为数据来源,并通过 PowerVirtualAgent扩展 Copilot能力;二是将 Power Platform 现有的连接器与 Microsoft 365 Copilot插件集成,用户可以直接在Copilot 中直接调用插件的相关能力。对于 OpenAl 现有插件,开发者或 ISV 能够通过 PowerAutomate 将其快速集成至低代码应用当中。可以预见,在 Copilot 能力的加持下,用户使用低代码进行 APP 开发的门槛将会越来越低,并且能够不断丰富微软的插件生态,推动 Power Platform和 Microsoft 365 Copilot 两个业务共同发展。
1.1.2 谷歌: C 端产品软硬件更新,B 端医疗行业率先落地
谷歌人工智能搜索 SGE 更新文生国功能。10 月 13 日,谷歌宣布其 AI 搜索能 SGE(SearchGenerative Experience ) 迎来功能更新,用户现在能够直接在 SGE 中使用提示生成图像,类似于 Bing 和 OpenAl的 DALL-E3 的结合方式。通过新的 Al图像生成功能,用户可以输入创建图像的prompt,SGE会直接返回四张图像结果,用户可以对其进行进一步调整。这一功能的底层模型是谷歌的 Imagen 文生图模型,lmagen 模型由谷歌在 2022 年 5 月推出,其语言模型部分使用的是谷歌自家的 T5-XXL,图像生成模型部分则是一系列的扩散模型。
谷歌 Pixel 8 系列手机接入大模型,新增多项 AI 功能。在 10 月的 Made By Google 硬件大会上, 谷歌发布了全新的 Pixel 8 系列手机,全系搭载 Google Tensor G3 处理器,提供系统层级的 AI 功 能支持。新增的 Magic Editor 功能让用户通过简单操作即可对图像进行复杂的编辑;Audio Magic Eraser 功能可以识别声音中的噪音部分并将其减少;Pixel 8 Pro 还独占推出图像缩放增强功能, 在图片放大后通过生成式 AI 来对低像素部分进行超分辨率。Pixel 8 Pro 将是首款在本地搭载 Google AI 基础模型的设备,用户可以在离线状态下使用这些 AI 功能。
谷歌宣布面向安卓与 iOS 设备,推出“Bard 助理(Assistant with Bard)”。Bard 助理将手机 的个人助手功能与生成式 AI 相结合,用户可通过文本、语音或图像与 Bard 助理互动,并能够与 Google Workspace 文档、Gmail 等应用直接集成。例如,当用户询问“本周我错过了哪些重要邮 件”时,Bard 助理会列出各项要点及具体内容,并附上具体对应邮件的链接,还可以帮助用户提取活动地址并在谷歌地图中显示。目前 Bard 助理还处于早期测试阶段,将在未来几个月内向公众推出。
谷歌助力生成式 AI 落地医疗领域。谷歌在 2023 年 5 月推出了医学大模型 Med-PaLM 2,在医疗 执照考试和多模态医疗 AI 等问题上达到了专家级的表现,它不仅可以处理文本,还可以处理 X 射 线和其他类型的输入等医学图像。谷歌云针对医疗与生命科学行业的公司推出了新的 Vertex AI 搜 索功能,基于该工具当前搜索许多不同类型文档和其他数据源的能力,帮助组织更有效地找到准确的临床信息。
针对生成式 AI 版权问题,谷歌提供完善的防护与赔偿机制。为了尽量保证生成式 AI 工具的安全 性,谷歌采用了多种手段。首先,通过谷歌生成式 AI 生成的图像都将添加元数据标签和 SynthID 水印,SynthID 是 DeepMind 于 2023 年 8 月推出的一种为 AI 生成的图像加上水印的工具,该技 术可以将数字水印直接嵌入图像的像素中,人的肉眼无法察觉,但可以由计算机检测到。即使是 在对图像进行了添加滤镜、更改颜色和亮度等修改后,水印也仍可以被检测到。其次,谷歌即将 推出“关于此图像”功能,用户可以通过此功能直接查询到图片可能存在的更多信息,例如首次 被谷歌编入索引的时间、可能的最初来源、网络上其他出现的位置等。通过这些信息,用户可以 更好地判断图像是否可靠。谷歌正在推动其他 AI 生成厂商在生成的图片中加入标签信息,未来将 有望直接从“关于此图像”中了解该图片是由哪一家厂商生成的。同时,为了更好地保护用户的 权益,谷歌宣布为 Duet AI 和 Vertex AI 的用户提供版权诉讼保护,如果用户因为版权原因受到质疑,谷歌将对所涉及的潜在法律风险承担责任并进行赔偿。
1.1.3 Meta: 让 Al 赋能 2C 应用
Meta 宣布将 AI 引入旗下产品与设备中。9 月召开的 Meta Connect 2023 上,扎克伯格提到公司正在将最先进的 AI 带入覆盖数十亿人使用的应用程序,Facebook、Instagram、WhatsApp 等社交软件。基于 Meta 的大语言模型 LLaMA 2、图像生成模型 Emu、分割模型 SAM,用户可以在Meta 旗下的社交应用中体验 AI 表情、A 图像编辑、AI 图像背景替换等功能。
Meta推出Meta AI,进军聊天机器人领域。Meta AI是一款类似于ChatGPT的聊天助手,在 Meta 旗下的社交应用中均可使用,并即将推广到 Meta 的 MR 眼镜 Quest 3 中。Meta AI 是一个通用助 手,能够直接接入 Bing 搜索引擎提供实时网络结果。与 ChatGPT 不同的是,Meta 还在旗下社交 应用中推出了 28 个 AI 角色,拥有不同的背景故事和人设,用户可以自由地与不同的 AI 角色进行 聊天社交,这些 AI 角色还在不断增加。
1.1.4 亚马逊: 重点推进生成式 AI 企业服务
亚马逊生成式 AI 的重心更偏向于企业服务。与微软、Meta、Google 等巨头不同,亚马逊没有将重点放在自研的大模型上,而是放在如何为企业提供更好的生成式 AI 服务上。9 月,亚马逊宣布了一系列生成式Al企业服务更新:
1)亚马逊旗下的生成式Al 服务框架 Amazon Bedrock 正式可用;
2)代码助手 Amazon CodeWhisper 可以进行定制化,能根据企业内部 API、代码库和实例等进行微调;
3)Amazon QuickSight 的生成式 BI功能上线预览版。
亚马逊战略投资 Anthropic 40 亿美元,扩展其 AI产业布局。9 月25 日,亚马逊宣布与大模型厂商Anthropic 达成战略合作,亚马逊投资 40 亿美元,AWS 将成为 Anthropic 未来大模型研发的主要云提供商,Anthropic 将使用 AWS 自研的 Trainium 和 inferentia 芯片来构建、训练和部署其未来的基础模型,并通过 Amazon Bedrock 为 AWS 的客户提供其模型的访问权限。通过这笔投资,亚马逊持续拓展其在芯片层、模型层和应用服务层的全栈布局。
1.2 B 端企业服务: 持续深化 A 在原有产品领域赋能
1.2.1 Salesforce: 收购 Airkit.ai,深入布局 AI领域
在 Dreamforce 2023 上,Salesforce 宣布推出了 Einstein 1 平台。该平台对 Data Cloud 和Einstein Al 功能进行了重大改进,所有这些都基于 Salesforce 的底层元数据框架构建。Einstein1平台使公司能够安全连接任何数据,以低代码构建人工智能驱动的应用程序,提供全新的CRM体验。Salesforce 同步推出了全新的 Data Cloud 和对话助手 Einstein Copilot。Data Cloud 是Salesforce 的实时超大规模数据引整,是 Salesforce生成式AI 的基础。Data Cloud 目前每月处理30 万亿笔交易,每天连接和统一 100 亿条记录。Einstein Copilot 通过协助用户完成工作流程来提高生产力,用户能够用自然语言进行提问,并获得基于 Data Cloud 的答案。
1.2.2 SAP: 发布人工智能助手 Joule
9月26日,SAP 发布了生成式 A1 助手 Joule。Joule以 SAP 现有的 Business Al产品为基础进行了增强,Joule 将嵌入 SAP 的企业云解决方案中,能够和 SAP 的各种业务系统进行深度交互。Joule 的使用场景涵盖 HR、财务、供应链、采购和客户体验,以及 SAP 业务技术云平台。员工只需用简单的语言向 Joule 提问或描述问题,就能从 SAP 解决方案和第三方来源的海量商业数据中获得答案。比如,Joule可以帮助制造商识别销售表现欠佳的地区,并与其他数据集建立关联,揭示供应链等方面的问题,然后自动连接到供应链系统,给制造商提供可能的解决方案供其参考Joule 将于今年晚些时候率先在 SAP HR 云解决方案和 SAP Stat 中供用户使用,并于明年初在SAP S/4HANA公有云版本上搭载。SAP CRM云、SAP 采购云和 SAP 业务技术云平台也将陆续在之后上线。
1.3 C端: 多模态能力涌现
1.3.1 Adobe: Adobe MAX 2023 大会召开,Firefly 系列模型更新
10月10日,Adobe MAX2023 大会正式召开。软件巨头Adobe 推出了三个新的生成式人工智能模型,分别为“第二代董火虫图片模型”( Firefly lmage 2 Model)、“董火虫矢量模型”( Firefly Vector Model) 和“董火虫设计模型”( Firely Design Model)。与第一代 Firefly 相比Firefly lmage 2 模型可生成质量明显更高的图像,尤其是在染逼真的人体时,涉及树叶、皮肤纹理、头发、手和面部特征等高频细节。Firefly Vector 模型适用于 Adobe illustrator,是世界上第一个可生成矢量图的 AI 模型,用户可使用文本 prompt 创建可编的矢量图像,并自动将图形的每个元素拆分为“逻辑组”和图层。Firefly Design 模型采用即时端到端设计,支持与图像模型结合快速生成模板设计,支持大量主流比例模板,并在 Adobe Express 中直接编。除此之外Adobe Creative Cloud 中所有软件几乎都新增了 AI驱动的创新功能。
企业客户方面,Adobe 推出了 2B 的全新的端到端解决方案 GenStudio。GenStudio 以 Firefly 为 生成核心,能为品牌方提供基于生成式 AI 的能力来加速内容构思、创作、制作和激活的一系列产 品。企业可以在数字资产管理系统Adobe Experience Manager Assets中,通过Express和Firefly 对用于商业用途的数字内容进行即时编辑,加速企业内容供应链流程。Adobe 允许企业使用品牌 自己的风格、角色和对象来定制和微调 Firefly,并且能将定制的 Firefly 模型完全集成到企业的 Creative Cloud 工作流程中并自动化生产工作。
1.3.2 Canva: 推出 AI 设计工具 Magic Studio
10月4日,Canva 正式推出 A1 设计工具 Magic Studio,一次开放了十几种 AI 功能,涵盖了目前几乎所有的 AI 设计工具功能,真正做到了“一站式 AI 设计工具箱”。Magic Studio 包含了一键进行设计生成的 Magic Design、一键转换设计风格的 Magic Switch、一键文生图和视频的Magic Media、一键生成文稿的 Magic Write 等 9大 Magic 生成式 AI能力,并且通过 Canva 应用市场整合了图像生成工具 DALL-E、Imagen,虚拟主播 Nerio Al,语音生成工具 PlayHT 等多种Al工具和应用。目前 Magic Studio 可以面向个人免费试用,面向企业则需要 300 美元/年起步。
2.1 OpenAI 更新 DALL·E 3和 GPT-4V,多模态能力迎来跃升
OpenAl 宣布旗下文生图模型 DALL·E 即将升级至 DALL·E 3。9 月 20 日,OpenAl 在官网上更新了 DALL·E 3 模型的最新信息,相比去年发布的 DALL·E 2,在提示词相同的情况下,DALL·E 3 对文字的理解程度及生成的图像质量显著提升。时常被诟病的“无法在图像上生成文字”的问题,也在这次升级中得到了解决。DALL·E3将于 10 月首先向 ChatGPT PIus 和企业版客户开放,之后在秋季稍晚些将提供 API 接口并面向公众开放。
DALL·E 3 原生集成至 ChatGPT,用户无需进行复杂的提示词工程。目前的文生图系统大多将重点放在生成图像的质量和水准上,而忽略了文字和描述的重要性,这使得用户不得不学习复杂的提示词工程,例如 Midjourney 要求用户必须按照其指定的提示词规则进行输入才能达到比较好的生成效果。而 DALL·E 3 通过集成 ChatGPT,使文字生成图像这一过程中的“文字”部分实现了质的飞跃。用户进行用自然语言对想要生成的图片进行描述,就可以直接在 ChatGPT里实现 图片生成。
2.2 GPT-4V 多模态能力打开 AI应用想象空间
微软详尽报告展现 GPT-4V 强大多模态能力,有望落地多领域应用。在 GPT-4V 上线后不久,微软团队发布了一篇 166 页的论文,详细测评了 GPT-4V 在图像理解方面的能力,多模态的 GPT4V 将有望应用到多个行业领域中。
报告共计:25页
海量/完整电子版/报告下载方式:公众号《人工智能学派》