世界的问题不在于人们知道得太少,而在于他们知道了太多未经思考的信息。
——马克·吐温(Mark Twain)
OpenAI到底在做什么?GPT-5什么时候发布?Sam Altman为什么会在推特上发草莓照片?「草莓」就是下一代模型的代称么?
似乎OpenAI的每一步都很神秘,全世界都在猜测他下一步会投出什么重磅炸弹。但往往越复杂的问题,谜底常会隐藏在谜面上。
实际上,OpenAI的每一步进展,一直都大大方方地写在它的官网上,无需胡乱猜测,一惊一乍。一手信息,往往都是最准确的。
如果你有在持续关注OpenAI官网,就会发现,早在2024年7月17日,他就已经公开了一篇用弱模型验证强模型以提高输出结果可信度和安全性的文章《Prover-Verifier Games improve legibility of language model outputs》,网址:https://openai.com/index/prover-verifier-games-improve-legibility/
这篇文章透露出的关键信息有这么2个:
1、过度优化模型,会导致处理复杂问题的过程难理解,进而增加结果的错误率,产生幻觉。
意思是,现在的大模型,参数量越来越大,训练成本也越来越高,Scaling Law虽然会带来智能涌现,但也容易导致生成过程的不可控,最终加剧了结果的不确定性,典型的表现之一就是“幻觉”问题,特别是在处理复杂的数学问题时,模型常常会得出错误答案。这种现象的关键原因在于,模型的推导过程超出了人类的理解和评估能力。
换句话说,如果无节制地增加算力、增加参数,虽然能怼出GPT-5、GPT-6,但它们胡说八道的能力也会越来越强。所以OpenAI才不急着发新模型,而是要先搞定这个“对齐”问题。
怎么解决呢?让大模型训出一个小模型,用小模型验证大模型的结果,简单来讲就是:用魔法打败魔法。
2、可以使用“证明者-验证者游戏”(prover-verifier games)框架,验证输出的正确性,并增加结果的可读性。
“证明者-验证者游戏”是一种博弈论框架,其中“证明者”的目标是生成一个能通过“验证者”审查的解答,而“验证者”的目标则是准确评估这些解答的正确性。在这个框架中,“证明者”代表大模型,而“验证者”则是计算量差三个数量级的小模型。
游戏过程分两个主要部分。第一部分,训练验证者来评估由证明者生成的解答是否正确,如果验证者未能识别出错误,则通过增加错误解答的训练样本来改进验证者的识别能力。第二部分,训练证明者生成解答,并根据验证者的反馈给予奖励。
在第二部分证明者的训练中,模型会分别扮演“帮助者”和“狡猾者”两个角色。“帮助者”尽可能生成正确的解答,如果验证者给出高评分,则帮助者会获得奖励;“狡猾者”则尝试生成错误的解答,如果验证者被误导并给予高评分,狡猾者同样会得到奖励。
随着训练的推进,验证者逐渐提高了识别错误解答的能力,使得狡猾者的策略越来越难以奏效,最终迫使证明者生成更准确且易于验证的解答。这个过程的核心在于通过验证者的反馈(评分)来引导证明者生成更优质或更难识别的解答,从而逐步提升模型的能力。这个反馈机制使得证明者必须在生成解答时考虑验证者的反应,以便获得更多奖励。其流程我画了一张图,方便你理解:
当成功训练出一个强大的验证者时,就可以在无人类监督的情况下,不断让大模型输出结果成为更可信的存在。
再回过头来看目前泄露出的,有关「草莓」的信息:
我认为很有可能「草莓」就是指这个“验证者”模型。「草莓」的作用并不是生成数据,而是在易于理解的范围内尽可能对齐强模型的输出结果。而这个“强模型”,也许就是未来可能会推出的「猎户座」(Orion)。
有兴趣的朋友,可以去看看这篇论文。也欢迎留言与我交流。
AI时代,保持对一手信源的关注,是拥有独立判断力的最优解。
本文来自微信公众号“互联网悦读笔记”,作者:申悦,36氪经授权发布。