国产AI代人操作手机引关注大模型2.0时代来临？

作者：每日经济新闻发布时间：2024-10-31

每经记者：可杨每经编辑：魏官红

近日，智谱AI（人工智能）推出自主智能体AutoGLM，只需接收简单的文字或语音指令，就可以模拟人类操作手机的“Phone use能力”。相关消息引发市场关注，甚至催生出了“智谱AI概念股”。

视觉中国

一名接近智谱的人士对《每日经济新闻》记者表示，AutoGLM在开发、适配的过程中，优先考虑了用户使用手机时最频繁的场景。当前，智谱依旧在持续迭代AutoGLM功能，并将基于用户使用的高频场景，不断拓展AutoGLM的应用边界。

据悉，智谱已与中国三星深度合作，核心是将智谱的GLM大模型与三星的硬件技术相结合，以提升用户的智能体验。其实，AI在手机端的应用探索并非仅此一例，vivo、荣耀等都有类似的功能升级，苹果也计划在未来进一步集成ChatGPT服务到Siri中。有学者在受访时指出，AI与手机的结合正逐渐成为行业共识，这背后反映的是生成式AI在提升个性化体验方面的潜力。

但也有业内人士向记者指出，当前的“个人智能助手”与此前的语音交互能力并无太大差别。从长期来看，服务端应该是越弱越好，难点并不在于技术或商业模式，而在于用户习惯。

智谱推出AutoGLM

据智谱发布的演示Demo（样本），基于AutoGLM，用户向手机下达“帮我在淘宝下单淘宝里上个月买过的牙膏”的指令，手机就能自动执行“AI打开App—找到历史订单—完成订单筛选—请求用户支付—完成支付”的过程。

智谱方面表示，理论上，Au-toGLM可以完成人类在电子设备上可以做的任何事，它不受限于简单的任务场景或API调用，也不需要用户手动搭建复杂繁琐的工作流，操作逻辑与人类类似。

中信证券在研报中提到，随着互联网软件的种类、功能越来越丰富，智能体能否熟练地掌握每个软件的使用方法，满足不同用户的个性化需求，真正成为个人助手值得期待。从以聊天为主的大模型1.0时代迈入个人智能助理的大模型2.0时代，以智谱为代表的国产AI公司完成了从追赶者到领路人的身份转换。

从用户的日常操作到潜在的商业应用，AutoGLM除了在“Phone use能力”层面的想象空间，未来的应用场景会如何拓展？

一名接近智谱的人士对《每日经济新闻》记者表示，在技术突破层面，AutoGLM基于智谱自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”。其中的核心技术WebRL，克服了大模型智能体在任务规划与动作执行中存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题。同时，借助自适应学习策略，能够在迭代过程中不断改进、持续稳定地提高自身性能。就像一个人，在成长过程中，不断获取新技能。

大模型应用加速落地

华鑫证券在其研报中预测，AI Agent（智能体）的中国市场规模有望从2023年的554亿元增长至2028年的8520亿元，年均复合增长率高达72.7%。中信建投则在研报中表示，预计在不久的将来会进入大模型时代的2.0时代：AI Agent。

在接受《每日经济新闻》记者采访时，清华大学新闻学院和人工智能学院双聘教授沈阳指出，AI与手机结合正逐渐成为行业共识，这背后反映的是生成式AI在提升个性化体验方面的潜力。同时，随着硬件与AI服务的一体化设计日趋完善，AI正在引发人机交互的范式变革，推动手机与用户之间的关系从简单的操作工具转变为动态互动。沈阳认为，这一趋势同样将深刻影响国内市场，预计未来将有更多智能设备采用AI驱动的交互模式，从而极大提升用户体验。

在国内，除了智谱推出的AutoGLM，仅今年10月，就有数家厂商在端侧有所动作。比如，vivo推出蓝心端侧大模型3B，称服务超5亿手机用户；字节跳动发布首款AI智能体耳机Ola Friend，与豆包集成；荣耀推出MagicOS9.0，实现一句话充值、一句话点外卖等服务。

在国际市场上，科技巨头们同样动作频频。苹果在10月28日宣布推出AI功能，并计划在未来进一步集成ChatGPT服务到Siri中；微软则开源了OmniParser工具，为用户提供如自动订票等便捷功能；谷歌计划推出Gemini 2.0，并正在开发能自动化执行Chrome网页任务的“Project Jarvis”，该项目将帮助用户执行诸如“收集研究、购买产品或预订航班”等任务。

不过，也有人对当前AI应用在端侧类似“个人智能助手”的探索持反对态度。“在我看来端侧是倒退。”一家AI应用公司创始人在接受《每日经济新闻》记者采访时表示，从长期来看，服务端应该是越弱越好。他认为，当前无论是硬件设备、软件应用，还是交互方式，均未超越上一轮语音交互热潮期间入局企业所进行的探索范畴。或许在某些特定场景下，诸如苹果这样的行业巨头，具备教育用户或改变用户需求的潜力，但极为困难，其难点并不在于技术或商业模式，而在于用户习惯。

上述AI应用公司创始人认为，99%的用户在表达需求时，不可能用一句话阐明具体意图，更多是以一种“挤牙膏式”的互动一步步完成，例如，用户需要订一张北京飞往上海的机票，大部分用户往往发出的第一句指令只有简单的几个字：订机票，余下需求则需要通过提问再完成。“第一是用户没这个需求，第二是真正用起来，肯定会出现各种奇奇怪怪的问题，我对语音助手是非常悲观的。”其表示。

他进一步补充道，尽管相关技术已经经历了多次迭代，相较于过去已有显著提升，但问题的核心仍在于对需求的精准把握与满足。

寻找破局之路

在端侧应用的探索中，智谱当前瞄准的破局点或许与操作系统有关。

AutoGLM是智谱按照AGI通用人工智能升级路线图进行的探索和尝试之一。智谱CEO张鹏曾谈及对AGI分级的思考，他认为，L1是语言能力，L2是逻辑与思维能力，L3是工具能力，L4人工智能意味着AI可以实现自我学习、自我反思和自我改进。L5则意味着人工智能全面超越人类，具备探究科学规律、世界起源等终极问题的能力。

上述接近智谱的人士表示，AutoGLM可以看作是智谱在人工智能L3“使用工具能力”方面的探索和尝试，借此努力推动人机交互范式实现新转变，为构建GLM-OS，即以大模型为中心的通用计算系统打好基础。进而，基于已有AllTools能力加上内存记忆（memory）和自我反馈（self-reflection）机制，GLM-OS有望实现模仿人类的Plan-Do-Check-Act循环。

荣耀CEO赵明也曾在该公司发布会上谈到，MagicOS自诞生之初就致力于打造属于未来的操作系统，构建以AI为核心的智能操作系统（AI OS）。

在技术突破之外，另一个破局点或许在于生态的建立以及用户使用习惯的培养。尽管对语音交互持悲观态度，但前述AI应用公司创始人坦言，用户的需求也不是铁板一块，完全不能动摇。尽管他认为改变用户需求的难度很大，但对于科技巨头能否做到，他持观望态度。

数字经济专家刘兴亮也对《每日经济新闻》记者表示，像苹果这样拥有大量用户的公司，AI功能的融入确实有望改变用户的行为习惯，尤其是通过改善用户体验，使其日常使用更加便捷、高效。例如，AI驱动的健康管理、出行助手等功能，将提升用户对品牌的黏性和依赖度，从而带来更多生态系统内的交叉销售机会。其他企业则可以从中借鉴，通过AI来增强用户体验，建立长期的品牌价值，而不仅是局限于一项具体功能的提升。

沈阳指出，在大模型和AI应用融入手机、PC等设备时，还需解决用户个性化不足与上下文理解局限的问题。这需要通过在设备端保存更多对话和用户操作习惯来增强AI的跨会话理解力和准确性。同时，多模态集成也是关键，将文本、语音、图像等输入形式结合，能显著提升AI处理复杂指令的能力。针对跨设备无缝体验的挑战，沈阳建议采用统一的AI框架来增强跨设备的智能助手一致性，确保用户在任何设备上都能获得相同的AI体验，并优化设备间数据同步的速度。

在沈阳看来，未来，AI应用的趋势将朝着多模态AI、深化个性化服务以及3D AIGC与AR/VR结合的方向发展。然而，在这个过程中，用户的期待与现实之间存在差距，如AI的精确性与可靠性问题、隐私与数据使用的顾虑以及使用门槛和学习成本高等挑战。

刘兴亮则表示，在未来一段时间内，AI技术的实际应用前景依然广阔，但的确面临着如何在用户期望和实际需求之间找到平衡的问题。行业可能需要调整发展方向，在商业化过程中保持技术与需求的同步发展。找到商业化与实用性的结合点尤为重要，比如开发更贴合具体场景的AI产品，并且关注用户反馈和使用数据，通过小步快跑的方式持续优化，才能真正提升AI的落地效果和市场接受度。

每日经济新闻

国产AI代人操作手机引关注大模型2.0时代来临？

推荐体验

相关资讯