苹果公司近期提出了一种革命性的方法,名为ReALM(Reference Resolution As Language Modeling),该方法成功地将上下文信息转化为语言模型问题,从而有效解决了大型语言模型在处理非会话式实体上下文信息时所面临的挑战。这一技术的突破,预示着语音助手将迈向更高的准确性和自然度,为用户提供前所未有的交互体验。
在现代生活中,语音助手已逐渐成为人们不可或缺的助手,从设置日程提醒到查询各类信息,其功能日益强大。然而,要让语音助手更加智能、更贴近用户需求,关键在于其能否准确理解和把握上下文信息。尤其是当用户提及“他们”或“那个”等指代性词汇时,语音助手需依据上下文来精准判断其具体指向。同时,为了提供更加自然流畅的交互,语音助手还需要能够解读用户在屏幕上所看到的内容。
不过,大型语言模型(LLMs)在处理非会话式实体上下文信息,如屏幕显示内容或后台运行程序时,常遇到种种困难。特别是在计算能力受限或需要低延迟响应的场景,如智能手机上,使用单一的LLM进行端到端处理往往不切实际。此外,在模型需与其他API或组件交互时,也可能需要对现有系统架构进行大幅改动。
针对这些问题,苹果公司提出了ReALM解决方案。其核心理念在于,将上下文信息以语言模型问题的形式来处理。具体而言,ReALM能够解析屏幕上的实体及其位置信息,进而重建屏幕内容的纯文本表示。这些实体随后被标记,使语言模型能够“理解”它们在屏幕上的具体位置与周边文本。通过这种方式,ReALM成功地将复杂的上下文信息转换为语言模型易于处理的形式。
为了验证ReALM的有效性,苹果公司的研究人员进行了一系列实验,并将其与现有的基于规则的方法以及GPT-3.5和GPT-4等顶尖大型语言模型进行了对比。结果令人瞩目:在处理屏幕实体时,ReALM的性能与能够访问实际屏幕截图的GPT-4不相上下。同时,面对新领域或特定领域的查询时,ReALM同样展现出了卓越的性能。
在 WWDC 2024 和预计 6 月发布的iOS 18之前,人们对先进的 Siri 2.0 的首次亮相抱有很高的期望。尽管目前尚不清楚ReALM是否会如期集成到Siri中,但其巨大的应用潜力已然清晰可见。
ReALM不仅有望提升现有语音助手的性能,更可能催生出全新的、能在设备上本地运行且保持高性能和低延迟的语音助手系统。此外,该技术在自动驾驶、智能家居等需要精准处理上下文信息的领域同样展现出广阔的应用前景。
苹果公司的ReALM技术无疑为语音助手及相关应用领域带来了新的发展机遇。通过将复杂的上下文信息巧妙转化为语言模型问题,ReALM解决了长期以来困扰大型语言模型的难题。