大数据时代,如何有效挖掘和利用海量数据中蕴含的知识,是我们当前亟须解决的难题。自然语言处理技术作为连接数据与知识之间的桥梁,是解决这一难题的重要工具。近年来,生成式人工智能逐渐成为自然语言处理的利器。ChatGPT作为生成式人工智能的典型代表,极大地推动了自然语言处理技术的发展,引发了自然语言处理研究范式的转变,使自然语言处理技术能够更加高效、智能地适应多样化的应用场景。
通过大规模的预训练,生成式人工智能具备了强大的上下文理解与自然语言文本生成能力,可以完成对话问答、信息检索等任务,与人类交互更加自然和灵活,成为当前自然语言处理领域的重要工具之一。
从整体架构来看,ChatGPT遵从“基础语料+预训练+微调”的基本范式。海量高质量的基础语料是技术突破的关键,预训练是构建大规模语言模型的基础,微调是实现模型实际应用的保障。GPT-4在上述架构的基础上进行了多模态升级,多模态输入能力对语言模型至关重要,使其可以获得除文本描述外的常识性知识,为多模态感知与语义理解的结合提供了可能性。这一新范式可归纳为“预训练+提示+预测”。
该文梳理了ChatGPT的模型架构和技术演进过程,重点讨论了提示学习、指令微调、思维链、人类反馈强化学习等关键技术,并结合运行原理分析了其面临的缺陷与挑战,探讨了进一步改进的着力点,为自然语言处理领域的深入研究提供有益参考。
该文提出,虽然ChatGPT的性能优越,但它是完全基于数据的模型,具有一些不可避免的局限性。例如,对垂直领域知识挖掘不充分不深入而造成的生成内容不够合理准确、训练数据偏差导致的生成内容存在潜在偏见、容易受到对抗性攻击从而诱导模型产生偏离事实的输出、无法高效在线更新近期知识等问题。
展望未来,ChatGPT还有很大的提升和改进空间,包括采用迁移学习、引入机理和领域知识等方法提升领域适应能力,增强多模态处理能力、筛选训练语料等方法提升模型的泛化性。此外,在进一步增强模型人机交互协同能力、提升模型可信度,构建新的可信测试基准等角度,都有提升空间。(作者秦涛 杜尚恒 常元元 王晨旭)