当前位置:首页|资讯|ChatGPT|自动驾驶

毫末大模型使用了ChatGPT最能打的RLHF学习 网友:快查查,不像假的

作者:科讯天下发布时间:2023-02-15

原标题:毫末大模型使用了ChatGPT最能打的RLHF学习 网友:快查查,不像假的

去年底,ChatGPT横空出世。真实自然的人机对话,以及比拟专家的回答,还有一本正经的胡说八道,使其快速走红,风靡全世界。

不像之前那些换脸、捏脸、诗歌绘画生成等红极一时又很快热度退散的AIGC应用,ChatGPT不仅保持了热度,而且还有全面爆发的趋势。现如今,谷歌、百度的AI聊天机器人已经在路上。

比尔盖茨如此盛赞:ChatGPT的意义不亚于PC和互联网诞生。

为什么呢?

首先,人机对话实在是刚需。人工智能技术鼻祖的图灵所设计的“图灵测试”,就是试图通过人机对话的方式来检验人工智能是否已经骗过人类。能从人机问题中就能获得准确答案,这可比搜索引擎给到一大堆推荐网页和答案更贴心了。要知道懒惰乃人类进步的原动力。

其次,ChatGPT实在是太能打了。不仅在日常语言当中,ChatGPT能够像人类一样进行聊天对话,还能生成各种新闻、邮件、论文,甚至进行计算和代码,这简直就像小朋友抓到一只 “哆啦A梦”——有求必应了。

除了看看热闹,我们也可以弱弱的问一句:ChatGPT为啥这么能打呢?

ChatGPT:我手握大模型,还会“杠”人类

先看一个“不要你以为,我要我媳妇以为”的例子。

之前,人类在和ChatGPT对话的时候,可以搬出“我媳妇这么说的”,“我媳妇说的……不会错”的时候,它就在稍微坚持之后就认怂并修改自己的回答。

但是经过了大量训练,ChatGPT开始变得十分硬气。无论你是否搬出自己媳妇,它都会坚持真理,2+2就是等于4 了,管你是不是个“妻管严”,它都不会妥协了。

原来是ChatGPT被回炉重造,进行了一番真实性和数学能力的专门训练。也就是说,ChatGPT既可以被人类带偏,也可以被人类强化纠正。

那为啥呢?先来回答ChatGPT到底是个啥?它是个基于上千亿超大语料参数组成的GPT3.0架构训练出来的一个自然语言处理的聊天工具。ChatGPT的算法就是采用了Transformer神经网络架构,具有很好的时序数据的处理能力,说大白话就是能很好处理上下文的语法关系。

Transformer是一种结构简单的编解码器,几乎可以无限堆叠,从而形成一种大规模的预训练语言模型。基于Transformer模型构成的GPT架构可以很好的完成多种语言处理任务,填空、造句、分段、翻译等等,随着数据集和模型参数的大规模增长,等到GPT3.0的时候已经有了千亿规模,GPT就表现出来了非常强的文本生成能力。

自然而然,一问一句的对话模式也就应运而生了。但GPT3.5还不是ChatGPT。

ChatGPT还需要使用监督学习和强化学习来实现。具体来说,ChatGPT使用了一种叫“人类反馈强化学习(RLHF)”的训练方法,在训练中可以根据人类反馈,保证对无益、失真或偏见信息的最小化输出。

简单说,GPT只能保证有问就有答,我可不保证回答的正确的,而ChatGPT既要保证有的聊,还要保证聊的对。就跟小孩子一样,必须在大人一遍遍纠正发音、纠正语法和用词的训练中,学会真正的有效对话。

ChatGPT就是利用人类反馈进行强化学习的产物。

既然ChatGPT这么好用。我们不妨来问它一个问题:

能不能把ChatGPT用在自动驾驶技术训练当中?

答案是:可以。

毫末顾维灏:把ChatGPT引入自动驾驶,毫末走了这三步

我估计ChatGPT还没涉猎过这个问题,因为关于ChatGPT和自动驾驶关联的内容是缺少的。不过,如果ChatGPT最近在中文网络中收录过相关报道的话,那么,它就会知道中国的一家人工智能技术公司已经开始思考这个问题了。

在今年1月毫末智行的AI DAY上,毫末CEO顾维灏非常隆重地提到了ChatGPT,并且直言,毫末已经展开对于ChatGPT背后的技术的研究。

顾维灏说:“实现GPT3到Chat GPT的龙门一跃最重要的是ChatGPT模型使用了“利用人类反馈强化学习RLHF”的训练方式,更好的利用了人类知识,让模型自己能够判断其答案的质量,逐步提升自己给出高质量答案的能力。”

那这对自动驾驶有什么启发呢?

毫末认为,ChatGPT的技术思路和自动驾驶认知决策的思路是不谋而合。

毫末在认知驾驶决策算法的进化上分成了3个阶段:

第一个阶段,是引入了个别场景的端到端模仿学习,直接拟合人驾行为。

第二个阶段是通过大模型,引入海量正常人驾数据,通过Prompt的方式实现认知决策的可控可解释。

第三个阶段,就是引入了真实接管数据,在其中尝试使用“人类反馈强化学习(RLHF)”。一般来说,人类司机的每一次接管,都是对自动驾驶策略的一次人为反馈(Human Feedback);这个接管数据可以被简单当成一个负样本来使用,就是自动驾驶决策被纠正的一次记录。也可以被当作改进认知决策的正样本来学习。

为此,毫末构建了一个<旧策略、接管策略、人工label策略>的pairwise排序模型。基于这个模型,毫末构建了自动驾驶决策的奖励模型(reward model),从而在各种情况下做出最优的决策。

毫末将这一模型称之为人驾自监督认知大模型。简单来说,就是为了让自动驾驶系统能够学习到老司机的优秀开车方法,让毫末的认知大模型要从人类反馈中学会选择和辨别,并稳定地输出最优解。通过这种方式,毫末在公认的困难场景,例如掉头、环岛等公认的困难场景中,通过率提升30%以上。

当然,如果ChatGPT再继续搜索和学习下去的话,它就会知道在1月初的HAOMO AI DAY上,毫末不仅发布了这个人驾自监督大模型,还一口气发布了另外四个大模型。这五个大模型可以帮助毫末实现车端感知架构跨代升级,也就是将过去分散的多个下游任务都集成到一起,形成一个更加端到端架构,包括红绿灯、局部路网、预测等任务,实现了跨代升级。

总得来说,人工智能技术是当前许多旧产业的改造器,也是新产业的助力器。正如当年互联网喊出的“所有行业都要被互联网重塑一番一样”,今天的一切行业都要被“AI+”改造一番。

而实际上,人工智能的这场变革并不是必然发生,它有赖于一个天才算法结构的横空出世,它有赖于海量数据和算力的成本下降与容易获得,也依赖于人工智能技术从业者的勇敢尝试。ChatGPT的出现是如此,自动驾驶的实现也是如此。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1