当前位置:首页|资讯|ChatGPT

【花师小哲】当代炼金术(神经网络)前沿(35)——ChatGPT:“狮子生活在水里”

作者:花师小哲-中二发布时间:2023-05-17

其实日常来说,我读的比较多的一类论文是以ChatGPT为代表的大模型的能力评估论文,主要是这类论文不需要多少脑子,熟悉了套路后半小时甚至都能啃一篇,在课题组要求一周至少10篇论文的情况下很容易充几个数。

毕竟这类论文基本上是选择一个主题,然后要么人工要么搞点自动化方法(大模型的输出实际上很多时候不标准,所以如何正确提取答案也是一大问题),就没了,所以没什么好讲的。

不过今天这篇论文有点意思:

1.评估是做选择题?

这个点我好像还没在专栏中特别提过,虽然动态说了几遍了。

因为大模型的输出不一定是按照我们想要的格式的,所以如何自动化地评估大模型的输出是否是“正确的”是一个很难的问题。

例如对于情感分类,传统模型的输出要么是“正面情感”,要么是“负面情感”,我们甚至可以控制模型只生成0或1,而ChatGPT给你来一句“小明很高兴”,自动化评估就很麻烦。

一个偷懒的方法就是让模型做选择题:

这种方法其实是BERT时代(或者简单理解成前ChatGPT时代)遗留的方法,因为BERT是判别模型(相应地ChatGPT是生成模型),所以选择题就适合BERT。

比较可气的是很多论文都不明确写出来“我们用了选择题”,导致我们课题组也是翻代码才发现大家好像心照不宣地都在用选择题做模型评估。(当时我知道后的反应是“好气哦”,毕竟自己在答案提取上也是研究了一小段时间,结果告诉我只要做选择题)

2.常识

回归正题。本篇讨论的其实是负常识,在了解负常识之前我们先谈谈常识

虽然在很多漫画作品中经常出现一些没有常识的角色,包括我自己也是个没什么生活常识的人,但我们也都或多或少的有些常识,不然怎么活下来的。

但常识对于机器来说就不是什么好处理的东西了,因为很多常识我们都意识不太到,例如我们生活中是不会经常去想“我们呼吸的是空气”这样的常识,也很少会将这些知识写到知识库中,所以对于很多传统的问答系统来说,常识知识反而是重灾区。

一个非常经典的例子是,对于一个传统的问答系统,你问它“美国的总统是谁?”,它会回答“拜登”;但如果你问“美国有总统吗?”,它可能就会给出“没有”。因为对于一些传统问答系统来说,这两个问题之间是没有内在联系的,它也不会从“美国总统是拜登”推导出“美国有总统”的(罗素直呼内行)。或者说,“美国有总统”这个常识知识甚至都需要我们再额外添加。

但是ChatGPT某种程度上突破了这个限制,关键就是预训练,也就是把人类的大量语料过了一遍,相应地也就内化了很多常识知识,所以在很多评估中,ChatGPT的常识能力已经很不错了。

3.负常识(Negative Commonsense)

讲完了常识,我们来看本文关注的负常识。

举个简单的例子,“狮子(一般)不生活在水里”就是一个负常识。负常识不是说错误的常识,而是主要采用否定的句式的常识。

负常识某种程度上比常识麻烦,例如一个常识“狮子(一般)生活在草原上”,就会对应“狮子不生活在水里”“狮子不生活在火山里”“狮子不生活在火星上”等非常多的负常识。

而且“否定”也是一个很麻烦的东西,虽然有研究表明大模型中往往有些和“not”相关的神经元,但大模型处理否定的能力还是要打个问号

4.由负常识引发的内在价值矛盾

本文主要介绍了两种负常识任务:

(1)负常识问答。就是给大模型一个句子(例如“狮子生活在水里”),让模型判断正误。

(2)组词造句。就是给大模型一些词(例如“狮子”“生活”“水”),让模型造出一个正确的句子(可以加一些词,但是这些词都要用上)。

然后奇怪的现象发生了,在任务(1)中,模型表现的不错,但在任务(2)中模型表现得不好。

就好比一个人明明已经内化了很多知识,但是却用不起来一样。这就构成了一种矛盾,我个人认为,根源其实和传统问答系统类似,也暗示着大模型没有真的掌握常识知识,或者以人类目前难以理解的方式在运用知识。

5.结语

其实相关研究还有不少,包括尝试知识的其他研究中,也有人发现大模型虽然内化了很多知识,但很多时候不能很好的在实际问题中运用。

这还是表明我们对大模型的内部运作机理理解的还是太少了。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1