当前位置:首页|资讯|ChatGPT|谷歌

【花师小哲】当代炼金术(神经网络)前沿(19)——从PNN到ChatGPT看研究范式转变

作者:花师小哲-中二发布时间:2023-03-01

由于最近出现了这么一篇论文,导致很多媒体开始了一波transformer的科普(这篇论文总结了60个著名的基于transformer的模型):

嘛,毕竟作为当下众多大模型的基础模型,transformer功不可没。不过我当然要讲一些不一样的,来讲一篇比transformer还要久远的模型——PNN

0.先讲下transformer吧

虽然之前也讲过,不过这次就作为复习吧。也不太多展开,毕竟这个系列的专栏就是科普性质的(也是我科研生涯中抽出空吹吹水悠闲一下)。

2017年,谷歌发布了一篇论文"attention is all you need",介绍了attention机制transformer模型。对于路人朋友来说,把这俩单词当成同义词就可以了。其中,attention一般可以翻译为注意力机制,transformer一般不进行翻译,部分文献简称为tf。

attention机制并不是谷歌首先发明的,之前很多网络中都用到了attention机制,但是正如这篇论文的标题一样,谷歌做的事情是将attention机制从一个辅助位转变成完全的C位,甚至是唯一位。事实证明,attention机制非常强大,而且非常灵活。于是这样“纯”attention机制的网络就是transformer。

那么attention机制到底是什么呢?简单来说(实际上还是比较复杂的),就是显式建立不同token(可以当做是一个个实体)之间的联系,例如在"旺财是邻居家的一条黄色花纹的爱拆家的狗"中,“旺财”和“狗”的关系更近,attention就是使得“旺财”将“注意力”集中在“狗”上而更少的集中在句子的其他部分上。

transformer的潜力之大可以参考如下论文:

这篇论文用一个13层transformer模型模拟了一台计算机,可以说是脑洞大开了(这篇文章需要你有较强的抽象思维能力和对计算机组成原理的掌握,还是很难读的)

1.点击通过率CTR

在讲PNN之前,我们先要搞清楚PNN想解决的问题——点击通过率

哎,其实我很不想讲这个东西的,因为这个东西基本是推荐算法部分的内容。就我个人而言是很讨厌这个东西的,主要是因为这东西总是把人建模成一串数字,而“信仰”维特根斯坦的我很反感这样非黑即白地定义一个人。近些年互联网不太景气,推荐算法的热度在互联网领域还比较高,这就更让人反感了。哎,话也不能说太死,万一以后真的落魄到不搞这东西就吃不起饭呢。

大家日常生活中可能有如下的体验:很多应用会给你推荐一些广告,虽然并不是所有广告都是你感兴趣的,但总体的推荐风格是符合你的口味的,至少很少会推荐你很少接触领域的广告(新颖性搜索呢?救一下啊),这当然是模型算出来的。

CTR问题简单来说就是:对于一个广告,平台会根据你的属性给你算一个数值,即你点进去的概率是多少,然后决定给不给你投或者投哪个。当然,这个计算并不是拿一堆数学公式来算,现在大部分算法依然是基于神经网络的,或者说是黑盒算法。

CTR问题的特殊性在于,输入一般是极度高维和极度稀疏的,如图所示:

拿城市来举例子,假设有100个城市,而你一般在两个城市之间往返,那么对你的“城市”描述就是一长串字符串,包含2个数字1和98个数字0。通常输入甚至能达到几千万维但其中1的数量非常之少。

2.PNN

我们来看一下PNN本尊。这部分还是要有些神经网络的基础的,当然也只需要对基本的MLP有一定的认识。

当然,一开始看这张图也会有些懵,我从网上找到了一张结构更加清楚的(来源间水印):

我们仅仅关注Embedding layer到下一步的转化。在Embedding layer中,高维输入已经被转化为一个个Feat(原始图是Feature,特征)。对于这些Feat,我们兵分两路:

(1)每个Feat做单独的一次变换。或者说,这部分叫做“保持本心”

(2)Feat两两间进行交互,即Feat1和Feat2交互、Feat1和Feat3交互...Feat n-1和Feat n交互。或者说,这部分叫做“建立联系”

哎,有没有发现这部分和transformer的思路非常像(transformer也有前馈层,可以简单理解为“保持本心”,当然也有方便梯度传播等功效)

很可惜这个模型相比transformer还是存在很多缺陷而没有广泛流传开,但不得不说,整个网络架构还是很有想法的。

3.研究范式转变?

为什么说ChatGPT出来的时候,我们实验室整体气氛比较活跃,我也疯狂地投身其中呢?毕竟在外人看来,不就是出现了一个看起来性能很强大的对话AI嘛,惊艳程度好像还比不上Diffusion嘛,况且Diffusion已经出现了很多问题,而ChatGPT甚至被很多人说是炒作。

但是在行业内部,ChatGPT的影响可能要比Diffusion深远的多,它可能会带来整个AI业界的研究范式的转变。或者说,转变已经开始了。

我们喜欢戏称我们这些搞神经网络的是搞炼金的(这也是本系列专栏的取名),是因为神经网络是一个黑盒,什么样的神经网络性能会更好更像是一个工程问题。于是,我们看到前几年大量架构新奇的网络层出不穷。

然后到了2017年,transformer出现了,其强大的性能促使了大模型的出现,很多大模型基本是纯基于transformer,只是做大做强,似乎网络结构的研究已经走到终点(但不可否认,仍然有很多transformer不适用的场合),即使是MoE,也很难说是网络结构(这里用了“网络结构”,其实可以把MoE看做是更高层次上的一个创新)上的创新。

那么,GPT-3和ChatGPT又带来了什么呢?它们告诉人们,大模型在训练好之后甚至能完全摆脱梯度,只需要提示(prompt)就可以完成很多工作,于是,很多文章的思路就完全脱离了“卷网络性能”的范畴,变成了完全基于大模型API研究的范式了。简单来说,很多研究甚至只需要调整prompt,然后扔到ChatGPT的API中比较结果就可以了。

或者说,我们从炼金术师变成了狗狗训练师(用的OpenAI自己的比喻)。不管是否有人会认为这样做比较Low,但基于这种研究范式的论文已经不少了,并且在可以预见的将来,这种类型的研究一定会越来越多。

这样范式的文章示例1:

【花师小哲】当代炼金术(神经网络)前沿(17)——ChatGPT帮你控制机器人

这样范式的文章示例2:



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1