由OpenAI首届开发者大会引发的AI界震荡余波未平,微软的Ignite 2023 大会又添一波。北京时间11 月 16 日晚间,微软开发者大会Ignite 2023在西雅图拉开帷幕,会上,微软宣布成为“一家Copilot公司”,进一步明确AI产品Copilot(副驾)嵌入其全线产品,连Bing Chat都正式更名Copilot,并发布新平台Copilot Studio。后者,像极了OpenAI开发者大会上推出的GPTs。
从OpenAI的GPTs助理到微软的Copilot“副驾”,无论是称其为AI助理还是“AI副驾”或是AI代理人、智能体,都预示着自定义人工智能有了更进一步发展的可能。一个全民拥有AI智能体的时代已经在路上了。
被看好的AI智能体
在短短45分钟的此次开发者大会上,OpenAI接连发布了新模型GPT4-Turbo、用户可自定义的GPTs、全新Agent框架AssistantAPI等,其中“冲击力”最大的当属于11月10日上线的GPTs。基于GPTs,用户无需编程就可根据自己的兴趣和需求创建出个性化ChatGPT助理。按照OpenAI首席执行官山姆·奥特曼的逻辑,未来,各行各业每一个人都可以拥有一个AI助理。
Microsoft 365 Copilot
实际上,在此前,微软已经宣布一系列Copilot(副驾)上线,包括Windows Copilot 、Microsoft 365 Copilot,同时微软还宣布与西门子联手的西门子工业“副驾” (Siemens Industrial Copilot)也即将推出,而这还不是微软Copilot的全部,在昨天开幕的Ignite 2023上,我们看到微软将AI“副驾”全面嵌入其产品线中。
山姆·奥特曼曾在多个场合表示:构建庞大AI模型的时代已经结束, AI智能体才是未来的真正挑战。
什么是AI智能体(AI Agent)?AI智能体是一种能够感知环境、进行决策和执行动作的智能实体。它拥有自主性和自适应性,可以依靠AI赋予的能力完成特定任务,并在此过程中不断对自我进行完善和改进。AI智能体一个重要的特征是主动,能够在用户提出要求前就提出建议,能够跨应用程序完成任务。在人工智能的术语中,AI Agent本质是一个控制LLM(大语言模型)来解决问题的代理系统,LLM的核心能力是意图理解与文本生成,如果能让LLM学会使用工具,那么LLM本身的能力也将进一步拓展,具备复杂的规划、记忆和工具使用能力,能够解决和应对各种各样的复杂问题。
今年年初,斯坦福大学和谷歌的联合研究团队发表了一篇题为《生成式智能体:人类行为的交互式模拟》的研究论文。在文中,居住在虚拟小镇Smallville的25个虚拟人在接入ChatGPT之后,表现出各种类似人类的行为,由此带火了AI智能体概念。此后,很多研究团队将自己研发的大模型接入《我的世界》等游戏,比如,英伟达首席科学家Jim Fan在《我的世界》中创造出了一个名叫Voyager的AI智能体,很快, Voyager表现出了十分高超的学习能力,可以无师自通地学习到挖掘、建房屋、收集、打猎等游戏中的技能,还会根据不同的地形条件调整自己的资源收集策略。
很有一部分IT人士深信,AI智能体将颠覆软件行业,或将开启一个新的时代。美国当地时间11月9日,微软公司创始人比尔·盖茨在其个人网站撰文表示:“智能体不仅会改变每个人与计算机交互的方式。它们还将颠覆软件行业,带来自我们从键入命令到点击图标以来最大的计算革命。”“在计算行业,我们谈论平台——构建应用程序和服务的技术。Android、iOS和Windows都是平台,智能体将是下一个平台。”
目前处于雏形阶段?
那么,那些笃信AI智能体改变世界的IT精英如何打造梦想中的AI智能体世界,开启AI智能体时代?GPTs和Copilot是否就是“智能体”或“AI代理人”?
在出席OpenAI首届开发者大会后,微软公司董事长兼首席执行官萨提亚· 纳德拉(Satya Nadella)在与硅谷风险投资人Elad Gil的炉边对话中表示,OpenAI一系列GPTs就是早期的AI代理人,而微软喜欢用“Copilot”的模式重塑微软的产品。几天后,微软在Ignite 2023 大会直接宣布:“微软是一家Copilot公司,我们相信在未来,每个人、每件事都会拥有属于自己的 Copilot。”
萨提亚 · 纳德拉表示,目前阶段的AI智能体还需要一项重要能力,即能够与其他智能体共同完成工作。“从某种意义上说,它是自主的,同时也需要人类做出决策,而且未来将是多代理、多智能体协同的,代理之间会交互操作,届时,会出现一些基于多代理框架的超级APP。”他说。
OpenAI 网站截图
事实上,今年7月,OpenAI就发布了一系列工具来帮助用户自定义ChatGPT,但当时依然需要一定的代码能力,所以这一工具的可用性相对较低。而使用GPTs,则“人人可以零代码制作智能助手”。山姆·奥特曼现场演示了五分钟创建一个“创业咨询GPT”,随后,OpenAI推出了16款有代表性的基于GPTs的助手,包括绘画工具(DALL.E)、数据分析师(Data Analysis)、谈判代表(The Negotiator)、洗衣搭档(Laundry Buddy)、副主厨(Sous Chef)、狂野修改(Hot Mods)等作为官方示范。在GPTs上线当天,用户基于GPTs创建的个性化ChatGPT助理突破1000个,72小时突破2000个,从税收GPT到换币换算助手,从健身宝到语言教练,从说故事的人到自行车GPT等五花八门,目前,第三方传到GPT应用商店(GPTs Hunter)的用户自定义GPT助手主要包括工作加速器、生活助手、学习助手、趣味助手四大门类。
影响正在产生
特斯拉CEO埃隆·马斯克在网上围观OpenAI开发者大会时曾评价山姆·奥特曼:“每次你发布一个功能,你就消灭了一家初创公司。”应该说,这一次,受到威胁的不止“一家”,而是指“一批”。自定义GPT的发布,会让很多基于GPT模型的创业公司丢掉饭碗。
Copilot 在基于聊天的对话中向现场服务人员提供答案和信息
不过有一些开发者对于自定义GPT制造的恐慌,持谨慎而理性的态度。知乎Python话题下的优秀答主段小草发布其初体验GPTs后的几点想法:一是创建GPTs门槛过低,会导致同质化严重,没有核心竞争力,大多数 GPTs 都可以自己创建;二是GPTs 安全系数不高,很容易被套取prompt甚至RAG文件;三是GPTs的实际使用效果并没有超越 GPT-4 本身,只是相对更加定制化;四是创建GPTs谈不上开发工作,专业开发者还是要更有挑战和难度的事情。
知乎编程话题下的优秀答主苏洋分析认为,GPTs的推出降低了门槛,将更快释放模型的潜力,“不过这只是开始,因为受限于算力&成本、产品体验、交互模式的限制,还不会快速扩展到大众的视野里(也可能,只是时间问题)”,因此,从业者要明确“如何切分和避免自己做的东西,很快被下一轮的OpenAI自有产品迭代掉”。
无论如何,AI智能体的大幕才刚刚拉开,随着这一时代的到来,不仅仅是OpenAI和微软,还将会有更多的公司与资金投入到AI智能体的战场,而AI智能体将对于整个IT产业生态发生深刻的影响。目前看AI智能体的应用还主要是集中在软件层面,随着技术的成熟未来AI智能体还有可能与硬件层面进行更多的集成与整合,将被用于控制机器人、无人驾驶汽车、无人机等,完成各种各样的任务,将会对智能硬件、基础设施等各个维度产生深刻影响。与此同时也会在数据与隐私保护等带来挑战,也可能造成技术性失业,还有可能造成不可测的失控风险,我们需要为此做更多的准备。
就在记者发稿前,微软中国在其官方微信公众号宣布:引入Copilot后,微软Dynamics 365 Guides可以帮助一线人员在不影响工作流程的情况下,更快地完成复杂任务和解决问题,这款无需手动操作的Copilot将率先用于HoloLens 2,帮助服务行业专业人员使用自然语言和人类手势,通过叠加在设备上的内容和全息图提供交互式指导。
这意味着用智能体操控硬件行动的可能性已经呈现。