在人工智能的发展历程中,苹果Siri曾标志着一个新时代的开启,让人们初尝与机器对话的便捷和乐趣。随着大模型迈向终端侧,人工智能迎来了“PhoneUse”时代,即通过智能手机实现各种智能应用的时代。
10月25日,一则三分钟视频在网络上刷屏,视频中的AI应用不仅能够理解自然语言,还能根据用户的指令执行复杂的任务,如自动化办公、智能导航、个性化推荐等。事实上,这是智谱AI推出的自主智能体AutoGLM。
智能体(AI Agent)是一种具有高度自主性和智能化的软件实体。它基于大语言模型,具备自主理解、感知、规划、记忆和使用工具的能力,能够自动化执行完成复杂任务的系统。与传统的人工智能相比,它具备通过独立思考、调用工具去逐步完成给定目标的能力。
AutoGLM基于智谱自研的 “基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”。这种技术架构克服了大模型智能体任务规划和动作执行存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题。同时,结合自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。
应用方面,AutoGLM能够模拟人类操作手机和网页,只需接收简单的文字或语音指令,就可以在各类应用程序上执行任务。比如在微信上给朋友圈点赞并写评论、在淘宝上购买某一款历史订单产品、在美团上点外卖等。理论上,通过对图形用户界面(GUI)的深刻理解,它可以完成人类在可视化电子设备(电脑、手机、平板等)上能做的任何事,不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。
在AndroidLab评测基准上,AutoGLM的任务执行表现超越了GPT-4O和Claude-3.5-Sonnet;在WebArena-Lite评测基准中,其任务成功率相对GPT-4O提升了约200%,大大缩小了人类与大模型智能体在GUI操控上的成功率差距。
目前,AutoGLM在手机端已开放给部分安卓用户进行内测,其web能力已经可以通过 “智谱清言”插件对外公开使用。并且,智谱AI还和荣耀等手机厂商展开了合作,未来会有更多手机直接内置AutoGLM。
如今,AI Agent已然掀起一股新潮流,各大模型厂商纷纷投身其中,尝试推出相关产品。只有一个目标,就是打造“杀手级应用”。然而,这并非易事,需要克服各种困难。不过,从AutoGLM的实际效果和体验来看,距离“杀手级应用”已经越来越近了。
mymymind 2024-10-25