央广网北京12月31日消息(记者卜叶)2022年年末横空出世的ChatGPT,引爆了2023年基于大模型的人工智能浪潮,此后各类大模型陆续问世,百模大战不断有新成员加入。
2023年,大模型领域未出现杀手级应用,但开始探索社交、金融、教育等诸多领域的落地。行业专家认为,当下应该更关注模型背后的算法体系,减少同质化的算法训练,提高输出的准确性,这样才有可能实现商业化。
从单一模态向多模态 大模型积极拥抱通感世界
研发之初,以ChatGPT为代表的大模型只能处理语言文字。但互联网世界里,90%以上的数据为图像与视频,音频数据也保持高增长,因此仅能处理语言文字的大模型只能涵盖互联网世界一小部分数据。
为模拟这个多模态的世界,2023年研究界将纯大语言模型扩展到处理语言之外的多模态大语言模型,让大模型能够感知视觉、听觉、触觉和味觉等多模态信息,比如支持图像类的MiniGPT-4、BLIP-2等,支持视频类的Video-LLaMA、PandaGPT等,以及支持声音类的SpeechGPT等。
北京邮电大学信息与通信工程学院教授邓伟洪表示,多模态让人类认知和沟通可以在任何信息模态之间进行转换,GPT-4、Gemini等多模态大模型不仅仅可以理解多模态内容,还能够以多模态的方式灵活输出信息。
“随着人工智能感知、交互和生成能力的快速发展,多模态大模型正推动人工智能迈进‘通感’时代。”邓伟洪说。
从感知到落地 容错率较高行业先行先试
2023年7月,一篇关于AI Agent的博文在行业内引起热议,大语言模型落地的可能性和想象空间随之被打开。人们发现大模型的潜力不仅限于生成故事、文章和程序等,它还可以作为一种强大的工具解决问题。用户直接给出需求指令,就可通过AIAgent进行决策、完成任务。
2023年,以大模型作为核心控制器来构建智能代理成为一个重要的方向。
智能代理是什么?又将如何完成任务呢?邓伟洪介绍,智能代理由三个部分组成,即控制端、感知端和行动端。例如,当人类询问智能代理是否会下雨时,感知端将指令转换为大模型可以理解的指令。然后控制端开始根据当前天气和互联网上的天气预报进行推理和行动规划。最后,行动端做出响应并将雨伞递给人类。
邓伟洪强调,通过重复上述过程,智能代理可以不断获得反馈并与环境交互,学会适应环境,推动人工智能迈进“通用”时代。
记者梳理发现,2023年,大模型最先被应用于容错率较高的行业,如聊天、游戏、社交等,这些领域偶尔的错误不会带来严重的影响。此外,大模型作为辅助决策的存在,如教育、办公场景等。
邓伟洪表示,大模型已经在教育行业取得不少亮点应用。例如,移动语言学习平台多邻国通过GPT-4大模型来扩展课程内容,以及提升故事脚本编写速度,受到用户好评。美国教育平台可汗学院同样借助GPT-4开发大模型应用,为学生和教师配备“超级AI导师”。7月,我国发布国内首个教育垂直大模型“子曰”,并推出基于“子曰”研发的多个大模型应用,“虚拟人口语教练”是其中的特色应用。
值得一提的是,2023年,金融机构纷纷入局“百模大战”,度小满、马上消费金融等科技企业先后发布落地多项金融大模型。央广网记者梳理发现,在金融领域,大模型主要落地在智能客服、企业内部智能运营等方面。
减少“幻觉” 大模型有望迎接智能运营时代
2023年,应用场景、任务导向不同的AI大模型陆续面市,国内企业已经发布上百个大模型,但实际上大模型的商业化还未取得明显进展。
业内专家直言,并没有几家企业在大模型领域真正产生大额收入,绝大部分都是靠着融资以及创始人自有资金将企业往前推进。
其中,困扰大模型落地的“幻觉”问题尤为引人注目。“幻觉”让大模型产生不准确或具误导性的输出,在航空、自动驾驶和医疗等领域,即使一次错误,也可能带来严重后果。
为了让大模型减少“幻觉”,2023年国内外检索增强生成(RAG)技术的热度很高。邓伟洪解释,这种方法通常包括两个步骤,第一步是通过互联网或者内部知识库检索,准确获取与用户指令相关的知识。一旦获得了有用的知识,第二步就需要利用这些知识来指导应答的生成。RAG技术可以有效减少幻觉问题,减少大模型“说胡话”概率,为大模型大规模可控服务提供了可能。
面对数量不断增长的大模型,北京智源人工智能研究院院长、北京大学教授黄铁军表示,应该尽可能减少同质化重复性的模型训练,关注模型背后的技术创新,比如算法体系是否先进,模型训练高不高效,而不是纷纷推出名称繁多但内核类似的各种大模型。
在黄铁军看来,未来大模型不仅仅是一个产品,而是智能运营,像供应水、电、气、信息一样提供源源不断的智力。“人工智能的核心是生态建设和运营,这才是人工智能发展长久之计。”黄铁军说。