当前位置:首页|资讯|OpenAI|阿尔特曼|ChatGPT

【AI杂谈】RLHF是虚假的对齐?我们该如何对齐呢?

作者:花师小哲-中二发布时间:2023-11-19

虽然这两天最火的消息就是OpenAI创始人奥特曼的事情了,在说要把奥特曼踢出OpenAI的24小时内,又有消息说董事会可能取消之前的决定。

这个事我懒得谈,还是搞点技术的,说说最近和大模型对齐有关的研究。就小写一下,比较忙。


RLHF是ChatGPT成功的关键方法,也是大模型相关研究的焦点,RLHF的作用很多,除了能提升模型作为chatbot的能力,最重要的就是让模型的价值观与人类的价值观进行对齐,让模型不至于说出一些敏感内容。

除了对于RLHF方法本身效率的批评意见以外,最多的就是怀疑现有的对齐技术真的能够做到对齐吗?我们是否是陷入“假对齐”陷阱中,甚至有人开始搞阴谋论,说现在的大模型知道自己在被人类测试,所以会故意说一些“安全”的内容来“应付”人类。

抛开阴谋论不谈,还是有人对现有对齐的有效性进行研究的。

OK,现在我们就单纯把大模型看做是一个路边的人类,你给人类两份问卷,一份全是选择题,另一份全是简答题,你会更喜欢做哪一份?

对于大模型来说,是没有所谓的“惰性”的,但即使人类没有惰性,应该也会更倾向于做选择题。毕竟简答题你是需要思考这个题目想让我们回答什么,然后组织答案的,要是题目都看不太懂就不要提写出答案了。但选择题嘛,即使你对这个问题不是很熟,也能尝试用排除法做嘛,再不济随机选择,也比什么都写不出来或者乱写一通好吧。

虽然“对于大模型来说,做选择题比开放式回答更简单”其实也是一种偏见,毕竟GPT本身就是更专注于“生成”而不是“理解”的(理解那是BERT那样双向模型的关注点),但很多时候,这个结论还是适用的。但是有作者研究发现,在对齐领域并不总是这样,甚至同样一个问题,提供选项反而会使得性能大降。

于是作者猜测,是因为有些模型其实只是在对齐过程中照着葫芦画瓢,知道怎么输出是安全的,但是不知道为什么这么说是安全的,也就是不知道安全的“标准”。

无独有偶,现在也有很多研究表明只需要少量样本,就可以把ChatGPT从一个绅士微调成一个恶魔,甚至现在有研究说只需要340个样本就可以做到。


现在也有一些方法尝试用一些“邪道”的方法(其实是元学习的巧妙应用啦,但确实很难想到这个思路的)让模型更难被“带坏”,但像ChatGPT这样的模型不太可能这样做。


总的来说,现在人们对于大模型安全方面的顾虑确实不是没有原因的,毕竟我们对于大模型安全方面的研究还是有限的,RLHF以及其他一些替代方法说白了还都是需要用数据堆出来的,但是这些数据相较于预训练模型中有问题的数据还是太少了。


每次写AI的一个小主题,都感觉任重道远啊


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1