“我们从来没有觉得自己与通用人工智能如此接近,这是我从事人工智能研究这么多年以来最兴奋的时期,”在昨晚举行的复旦科创先锋论坛上,复旦大学计算机学院教授、博士生导师黄萱菁如此形容ChatGPT横空出世后她的心情。作为国内最早从事人工智能、自然语言处理和信息检索的学者之一,她做出的判断是:AI可能会像工业革命和信息革命一样,引领我们走向下一个时代。
活动现场,黄萱菁发表了主题为“迈向大规模语言模型”的演讲,她从语言模型的定义开始娓娓道来:“语言模型就是语言的规律。首先是语法,我们无论学习汉语还是英语等语言,都是从语法开始学起,但是光有语法,我们依然很难捕捉客观世界纷繁复杂的语言现象,因为语言并不会严格按照语法去表达。这个时候,我们就需要使用到数学‘武器’——概率,在各种语言现象中间去寻找规律。如果通过对句子进行概率分析,我们就能知道什么是正确的识别结果。这个概率模型就称为语言模型。”
由于句子在诸多情景下可能包含巨大的词汇量,导致传统概率语言模型所需的计算资源爆炸式增长。所谓大规模语言模型就是含有巨量参数,能够接受很长一段时间窗口的语言文字。2017年开始出现了一个模型叫做Transformer,成为现在预训练模型的基石,也是大规模语言模型的基石。
据黄萱菁介绍,传统的预训练模型有两种思路,第一种思路是以BERT为例的理解模型,另一种思路是以ChatGPT的前身GPT为代表的产生式模型。当然也有一些工作尝试把理解模型和产生式模型结合起来。曾经很长一段时间理解式的模型被使用的比较多,而产生式模型则需要更高的算力和更长的窗口,一直到有了GPT-3之后,大家才知道它如此之强悍,而ChatGPT还拥有了很强的理解人类上下文的能力。
“我们生活在一个飞速变化的时代,每个礼拜都有新的模型发布,预训练+微调的方式是前ChatGPT时代的范式,诸如Google、Open AI这样的大厂商将自身开发的大模型开源,供下游应用者在这些模型上进行参数的微调,以取得优异的表现。”她表示,当语言模型变得更大的时候,一方面厂商出于商业原因逐渐舍弃开源,另一方面用户也缺乏足够的计算资源使用大模型,“这样的情况之下,一个新的范式最终横空出世:利用大规模语言模型的涌现能力。当模型的参数规模还不太大的时候,你看不到它的强大,当达到某一个临界值时,这个模型就会非常强大。”
记者了解到,作为ChatGPT背后的核心技术,大语言模型可以展现出强大的学习能力。而现有研究表明,模型规模和数据量越大,性能越好。当模型和数据规模达到一定程度时,模型将获得涌现能力。
拥有强大能力后,ChatGPT究竟会给我们带来哪些改变?微软CEO萨提亚·纳德拉接受媒体采访时曾说,内燃机带来了廉价的动力,互联网技术减少了信息传递的成本,而ChatGPT会让信息的整合、转译、流通变得更加廉价。
在黄萱菁看来,ChatGPT可以视作是人工智能的基座,就像“大脑”一样,“在肉眼可见的未来,善用AI的人将和不用AI的人在工作效率上会产生巨大差距,因此我鼓励大家多去使用和熟悉与AI进行沟通。在未来一段时间内,ChatGPT还不足以完全替代某一个岗位,但将大大促进各个领域的生产效率,我们希望AI是帮助人类的工具,而不是取代人类的机器。”
她同时表示,“我们发现ChatGPT能力现在的强大性能都是在现有的机器学习框架下可以解释的,并没有一些很玄的东西,我相信今年除了OpenAI,国内外会有很多机构,包括大学和企业等,在ChatGPT模型方面会有大的突破。”
作者:唐玮婕
编辑:朱伟
*文汇独家稿件,转载请注明出处。
奥好的314 2023-11-22
TheIllusiveMan00 2024-09-11