“我们从未与通用人工智能如此接近”，复旦黄萱菁解析ChatGPT

作者：文汇报发布时间：2023-03-13

“我们从来没有觉得自己与通用人工智能如此接近，这是我从事人工智能研究这么多年以来最兴奋的时期，”在昨晚举行的复旦科创先锋论坛上，复旦大学计算机学院教授、博士生导师黄萱菁如此形容ChatGPT横空出世后她的心情。作为国内最早从事人工智能、自然语言处理和信息检索的学者之一，她做出的判断是：AI可能会像工业革命和信息革命一样，引领我们走向下一个时代。

活动现场，黄萱菁发表了主题为“迈向大规模语言模型”的演讲，她从语言模型的定义开始娓娓道来：“语言模型就是语言的规律。首先是语法，我们无论学习汉语还是英语等语言，都是从语法开始学起，但是光有语法，我们依然很难捕捉客观世界纷繁复杂的语言现象，因为语言并不会严格按照语法去表达。这个时候，我们就需要使用到数学‘武器’——概率，在各种语言现象中间去寻找规律。如果通过对句子进行概率分析，我们就能知道什么是正确的识别结果。这个概率模型就称为语言模型。”

由于句子在诸多情景下可能包含巨大的词汇量，导致传统概率语言模型所需的计算资源爆炸式增长。所谓大规模语言模型就是含有巨量参数，能够接受很长一段时间窗口的语言文字。2017年开始出现了一个模型叫做Transformer，成为现在预训练模型的基石，也是大规模语言模型的基石。

据黄萱菁介绍，传统的预训练模型有两种思路，第一种思路是以BERT为例的理解模型，另一种思路是以ChatGPT的前身GPT为代表的产生式模型。当然也有一些工作尝试把理解模型和产生式模型结合起来。曾经很长一段时间理解式的模型被使用的比较多，而产生式模型则需要更高的算力和更长的窗口，一直到有了GPT-3之后，大家才知道它如此之强悍，而ChatGPT还拥有了很强的理解人类上下文的能力。

“我们生活在一个飞速变化的时代，每个礼拜都有新的模型发布，预训练+微调的方式是前ChatGPT时代的范式，诸如Google、Open AI这样的大厂商将自身开发的大模型开源，供下游应用者在这些模型上进行参数的微调，以取得优异的表现。”她表示，当语言模型变得更大的时候，一方面厂商出于商业原因逐渐舍弃开源，另一方面用户也缺乏足够的计算资源使用大模型，“这样的情况之下，一个新的范式最终横空出世：利用大规模语言模型的涌现能力。当模型的参数规模还不太大的时候，你看不到它的强大，当达到某一个临界值时，这个模型就会非常强大。”

记者了解到，作为ChatGPT背后的核心技术，大语言模型可以展现出强大的学习能力。而现有研究表明，模型规模和数据量越大，性能越好。当模型和数据规模达到一定程度时，模型将获得涌现能力。

拥有强大能力后，ChatGPT究竟会给我们带来哪些改变？微软CEO萨提亚·纳德拉接受媒体采访时曾说，内燃机带来了廉价的动力，互联网技术减少了信息传递的成本，而ChatGPT会让信息的整合、转译、流通变得更加廉价。

在黄萱菁看来，ChatGPT可以视作是人工智能的基座，就像“大脑”一样，“在肉眼可见的未来，善用AI的人将和不用AI的人在工作效率上会产生巨大差距，因此我鼓励大家多去使用和熟悉与AI进行沟通。在未来一段时间内，ChatGPT还不足以完全替代某一个岗位，但将大大促进各个领域的生产效率，我们希望AI是帮助人类的工具，而不是取代人类的机器。”

她同时表示，“我们发现ChatGPT能力现在的强大性能都是在现有的机器学习框架下可以解释的，并没有一些很玄的东西，我相信今年除了OpenAI，国内外会有很多机构，包括大学和企业等，在ChatGPT模型方面会有大的突破。”

作者：唐玮婕

编辑：朱伟

*文汇独家稿件，转载请注明出处。