【花师小哲】当代炼金术（神经网络）前沿（19）——从PNN到ChatGPT看研究范式转变

作者：花师小哲-中二发布时间：2023-03-01

ChatGPT 谷歌

由于最近出现了这么一篇论文，导致很多媒体开始了一波transformer的科普（这篇论文总结了60个著名的基于transformer的模型）：

嘛，毕竟作为当下众多大模型的基础模型，transformer功不可没。不过我当然要讲一些不一样的，来讲一篇比transformer还要久远的模型——PNN：

0.先讲下transformer吧

虽然之前也讲过，不过这次就作为复习吧。也不太多展开，毕竟这个系列的专栏就是科普性质的（也是我科研生涯中抽出空吹吹水悠闲一下）。

2017年，谷歌发布了一篇论文"attention is all you need"，介绍了attention机制和transformer模型。对于路人朋友来说，把这俩单词当成同义词就可以了。其中，attention一般可以翻译为注意力机制，transformer一般不进行翻译，部分文献简称为tf。

attention机制并不是谷歌首先发明的，之前很多网络中都用到了attention机制，但是正如这篇论文的标题一样，谷歌做的事情是将attention机制从一个辅助位转变成完全的C位，甚至是唯一位。事实证明，attention机制非常强大，而且非常灵活。于是这样“纯”attention机制的网络就是transformer。

那么attention机制到底是什么呢？简单来说（实际上还是比较复杂的），就是显式建立不同token（可以当做是一个个实体）之间的联系，例如在"旺财是邻居家的一条黄色花纹的爱拆家的狗"中，“旺财”和“狗”的关系更近，attention就是使得“旺财”将“注意力”集中在“狗”上而更少的集中在句子的其他部分上。

transformer的潜力之大可以参考如下论文：

这篇论文用一个13层transformer模型模拟了一台计算机，可以说是脑洞大开了（这篇文章需要你有较强的抽象思维能力和对计算机组成原理的掌握，还是很难读的）

1.点击通过率CTR

在讲PNN之前，我们先要搞清楚PNN想解决的问题——点击通过率。

哎，其实我很不想讲这个东西的，因为这个东西基本是推荐算法部分的内容。就我个人而言是很讨厌这个东西的，主要是因为这东西总是把人建模成一串数字，而“信仰”维特根斯坦的我很反感这样非黑即白地定义一个人。近些年互联网不太景气，推荐算法的热度在互联网领域还比较高，这就更让人反感了。哎，话也不能说太死，万一以后真的落魄到不搞这东西就吃不起饭呢。

大家日常生活中可能有如下的体验：很多应用会给你推荐一些广告，虽然并不是所有广告都是你感兴趣的，但总体的推荐风格是符合你的口味的，至少很少会推荐你很少接触领域的广告（新颖性搜索呢？救一下啊），这当然是模型算出来的。

CTR问题简单来说就是：对于一个广告，平台会根据你的属性给你算一个数值，即你点进去的概率是多少，然后决定给不给你投或者投哪个。当然，这个计算并不是拿一堆数学公式来算，现在大部分算法依然是基于神经网络的，或者说是黑盒算法。

CTR问题的特殊性在于，输入一般是极度高维和极度稀疏的，如图所示：

拿城市来举例子，假设有100个城市，而你一般在两个城市之间往返，那么对你的“城市”描述就是一长串字符串，包含2个数字1和98个数字0。通常输入甚至能达到几千万维但其中1的数量非常之少。

2.PNN

我们来看一下PNN本尊。这部分还是要有些神经网络的基础的，当然也只需要对基本的MLP有一定的认识。

当然，一开始看这张图也会有些懵，我从网上找到了一张结构更加清楚的（来源间水印）：

我们仅仅关注Embedding layer到下一步的转化。在Embedding layer中，高维输入已经被转化为一个个Feat（原始图是Feature，特征）。对于这些Feat，我们兵分两路：

（1）每个Feat做单独的一次变换。或者说，这部分叫做“保持本心”

（2）Feat两两间进行交互，即Feat1和Feat2交互、Feat1和Feat3交互...Feat n-1和Feat n交互。或者说，这部分叫做“建立联系”

哎，有没有发现这部分和transformer的思路非常像（transformer也有前馈层，可以简单理解为“保持本心”，当然也有方便梯度传播等功效）

很可惜这个模型相比transformer还是存在很多缺陷而没有广泛流传开，但不得不说，整个网络架构还是很有想法的。

3.研究范式转变？

为什么说ChatGPT出来的时候，我们实验室整体气氛比较活跃，我也疯狂地投身其中呢？毕竟在外人看来，不就是出现了一个看起来性能很强大的对话AI嘛，惊艳程度好像还比不上Diffusion嘛，况且Diffusion已经出现了很多问题，而ChatGPT甚至被很多人说是炒作。

但是在行业内部，ChatGPT的影响可能要比Diffusion深远的多，它可能会带来整个AI业界的研究范式的转变。或者说，转变已经开始了。

我们喜欢戏称我们这些搞神经网络的是搞炼金的（这也是本系列专栏的取名），是因为神经网络是一个黑盒，什么样的神经网络性能会更好更像是一个工程问题。于是，我们看到前几年大量架构新奇的网络层出不穷。

然后到了2017年，transformer出现了，其强大的性能促使了大模型的出现，很多大模型基本是纯基于transformer，只是做大做强，似乎网络结构的研究已经走到终点（但不可否认，仍然有很多transformer不适用的场合），即使是MoE，也很难说是网络结构（这里用了“网络结构”，其实可以把MoE看做是更高层次上的一个创新）上的创新。

那么，GPT-3和ChatGPT又带来了什么呢？它们告诉人们，大模型在训练好之后甚至能完全摆脱梯度，只需要提示（prompt）就可以完成很多工作，于是，很多文章的思路就完全脱离了“卷网络性能”的范畴，变成了完全基于大模型API研究的范式了。简单来说，很多研究甚至只需要调整prompt，然后扔到ChatGPT的API中比较结果就可以了。

或者说，我们从炼金术师变成了狗狗训练师（用的OpenAI自己的比喻）。不管是否有人会认为这样做比较Low，但基于这种研究范式的论文已经不少了，并且在可以预见的将来，这种类型的研究一定会越来越多。

这样范式的文章示例1:

【花师小哲】当代炼金术（神经网络）前沿（17）——ChatGPT帮你控制机器人

这样范式的文章示例2:

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（19）——从PNN到ChatGPT看研究范式转变

推荐体验

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（69）——ChatGPT，你看，有飞碟！

【花师小哲】当代炼金术（神经网络）前沿（36）——ChatGPT比我会砍价

【花师小哲】当代炼金术（神经网络）前沿（10）——Diffusion是记忆者？

【花师小哲】当代炼金术（神经网络）前沿（35）——ChatGPT：“狮子生活在水里”

【花师小哲】当代炼金术（神经网络）前沿（16）——语言模型的其他出路

近期资讯

撸猫爱好者狂喜！首个毛茸茸机械键盘诞生：1700元

人工智能如何重塑有色金属行业？业内首个大模型“坤安”发布

争做创新先行者，2024上海“领军先锋”评选决赛落幕

《“巢燧”大模型基准测试报告》在成都发布，中文大模型数学推理能力大幅增强

深圳市明微电子申请 LED 线性恒流驱动及照明电路专利，避免 LED 发光单元在低压时出现频闪

观众可在“算盘君”的引领下，沉浸式参与展览中的闯关游戏

终于搞清楚，陶瓷这种好东西为啥很少给咱用

大容量性价比之选，海尔BCD-539WGHTDEDH9U1：539升四开门冰箱

“跟票”微信送礼物“红包”？抖音电商：2023年就已上线相关功能

“人机料法环测”全面解析-1：是什么？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响