如何解决AI“胡说八道”问题？李彦宏：5500亿知识图谱叠加检索增强

作者：澎湃新闻发布时间：2023-03-16

·针对生成式语言大模型“一本正经胡说八道”的现象，百度创始人、董事长兼首席执行官李彦宏在回答澎湃科技的提问时表示，“百度在这个方面确实有优势，我们做了知识增强和检索增强。”

·李彦宏说，他昨天询问文心一言怎么看GPT-4，“它可以非常及时地总结出这些高时效的信息和内容。有检索能力和知识增强，叠加预训练生成大模型，就可以做得更好，未来大家在这个方面也会看到我们不断的进步。”

百度创始人、董事长兼首席执行官李彦宏3月16日在发布会上。

众所周知，不管是ChatGPT还是新必应都会出现“一本正经胡说八道”的时候。有了前车之鉴，百度怎么解决这个问题？

“这种生成式的语言大模型确实会出现‘一本正经胡说八道’的现象，大家在其他大模型的体验过程中应该有这种感觉。”3月16日，百度创始人、董事长兼首席执行官李彦宏在新闻发布会上回答澎湃科技（www.thepaper.cn）的提问时表示，“百度在这个方面确实有优势，我们做了知识增强和检索增强，所谓的知识增强就是有5500亿知识图谱里的事实，它叠加了这些生成式大模型之后，就可以做一些检查，看看生成出来的内容到底和事实是否吻合。”

“检索增强也是一样。”李彦宏说，他昨天询问文心一言怎么看GPT-4，“它可以非常及时地总结出这些高时效的信息和内容。有检索能力和知识增强，叠加预训练生成大模型，就可以做得更好，未来大家在这个方面也会看到我们不断的进步。”

在李彦宏看来，过去这一年多，人工智能领域发生了比较明显的变化——从过去的判别式的人工智能，转向了生成式的人工智能。

什么是判别式的人工智能？李彦宏解释道，“过去十几年人工智能在做这件事，比如拿来一个东西，不管是照片还是视频，人工智能来判别这个跟用户检索的东西是不是最相关，应该排在第几位，亦或拿来一个照片识别出这是杯子还是茶壶。”

而在过去一两年时间，人工智能开始走向生成式，即提一个要求，然后就可以产生符合要求的内容，包括文字、图片、视频。

对于3月16日文心一言的率先发布，百度首席技术官王海峰直言，这不是头脑发热。

“这是十余年的技术积累和产业实践的水到渠成，我们在人工智能四层的技术架构（模型、框架、芯片、应用）上都有很深的积累，尤其是框架层和模型层联合优化发挥了非常大的作用。具体到文心大模型本身，百度从2019年开始深耕预训练模型研发，到现在历时四年，既有基础大模型，也发布了全球首个知识增强千亿大模型鹏城-百度·文心，后面还有一系列更新的模型，而这些模型就是训练文心一言的基础。同时，在技术上，不管是深度学习本身的技术还是对话技术，都有很多积累。”王海峰说。

另一方面，有了技术，还要有数据。王海峰接着说道，“我们在人工智能发展的过程中，尤其在应用过程中，比如搜索引擎抓取了非常庞大的网页库，经过很多精细的处理，积累了高质量的数据。过去几年，尤其是随着百度智能云的发展，在服务客户过程中，我们也积累了很多行业数据，所有这些叠加在一起促成了今天在这里开文心一言的发布会。”

对于ChatGPT的开发机构OpenAI所追求的AGI（通用人工智能），王海峰认为人工智能永远不会完全跟人类的智能划等号，“我们要做的是不断研究更先进的人工智能技术服务人类。”