当前位置:首页|资讯|ChatGPT

AI 不能实现人性化只能实现逻辑拟人化

作者:Luminary-S发布时间:2023-03-18
朋友聊天提出一个观点:

AI 会从另一个维度来看待人性,从海量数据里得到概率参数,把生物的神经情绪反应参数化,概率化,就像三棱镜把光分成七色一样,站在另一种高度把人看透

个人觉得不太认同,觉得 AI 不能实现人性化只能实现逻辑拟人化

这个讨论源起与chatGPT,就从chatGPT说起。

y%3DF(x)%3Bx%2Cy%5Cin%20set%5C%7Bcorpus_i%5C%7D

chatGPT的判断标准是,就是人的表达逻辑,也就是说,chatGPT 根据输入产生的输出给人看,符合人的表达逻辑就行。这个逻辑,显然,符合基本的语言逻辑就可以了。人的语言逻辑,从根本上讲,都是语言文字形成的表述方式。虽然各种语言的表述方式不同,也就是语言不同,但是表达逻辑也是有限的。比如可以用公式表达:我们可以把英文的表达逻辑写做,y_%7Beng%7D%3DF_%7Beng%7D(x_%7Beng%7D)%3Bx_%7Beng%7D%2Cy_%7Beng%7D%5Cin%20set_%7Beng%7D%5C%7Bcorpus_i%5C%7D,相对应的 其他的语言也都可以这样。那么,chatGPT 的统一模型也就是 F%3DF_%7Bk%7D%3B%20if%20k%20%3D%20corpus_%7Beng%7D%2Ccorpus_%7Bchi%7D%20%5Ccdots。也就是一个集合模型,显然这个也是有限的,也就是说这个是可以实现的。

从模型结构角度,chatGPT 本质是 将 文本 和 矩阵 进行 编解码,也就是 encoder 和 decoder;中间串联或者递归 注意力机制组成的。注意力机制是什么呢?在机器视觉领域,有一个效果最好,用处也最广的模型,叫 YOLO,可以以实时的视频流去识别出每一帧画面中的是人、还是车还是各种类别。他最初的原理就是,如果我想在画面里面找到人,一个画面,我划分成四块,人到底是在四块中的哪个部分。在的那个部分就可以继续划分,知道找到准确的位置。这个是在 文本中非常好使用的,因为 文本 特别是 英文文本存在 天然的分割,就算 中文这种不好分割的,北大很早就做过中文语料的分割标定(文言文有个句读),都是完全可以处理的。通过这种注意力机制的判定,就可以知道,你关心的,或者关联关心的内容,都是有哪些。
总结一下,就是 chatGPT 理解 世界 的 原理 是基于 人的语言表达逻辑的,这种逻辑是有限的,在语料丰富的情况下,是完全可以覆盖掉的;而且其判断依据是人的主观,主观带有常识性的注意力表现,这种表现是长期的语言文字的积累形成的,也是符合语言逻辑的。因此,使用 chatGPT 去实现这个功能是完全可能的,虽然大量,但是毕竟有限。

从模型实现的角度,最主要的问题是找这个语言模型函数,神经网络是可以从最大似然估计和贝叶斯理论去解释的,可以看这个视频

有很完整的推导过程。表述方式上都是 概率论,也就是你说的概率参数,但是概率学的基础是服从一定的分布,任何模型的基础模型都是会有分布的约束的,这些分布就是大家常见的 泊松分布、高斯分布、几何分布、二项分布、指数分布。举个例子,神经网络最开始是想替代计算机的 0101,做神经网络计算机,出现的反向传播网络,就是基于 二项分布的,也就是说,我们把所有的事物,都可以通过 A 和 非 A 进行判定,并进行一层一层的叠加。 对于 语料模型来说,他可能没办法进行简单的组合,但是在注意力机制下面,你核心关注的 那几个词汇(token),是服从高斯分布或者泊松分布的;而他和其他词语相关连的相关性,也是符合泊松分布或者高斯分布的。这样,就可以通过大量的“概率参数”,虽然这个函数没办法写出来,实际上也就是 大量的 高斯分布和 泊松分布的串联或者并联的叠加,这个参数也就是 高斯分布或者泊松分布 的参数 加上 叠加的形式,电路的串并联表示也是可分的。这样就可以通过网络模型进行拟合这个超高维度的语言模型。

基于这样一个判断,文本输出产生的文本输出,在符合语言逻辑的这一判定标准上看,肯定能产生确切的结果,也就是 像 和不像,这个结果是确定的。猫肯定就是猫,因为全世界人民定义的猫是一个猫,就算有细节差别,发生判定误差的概率是可以接受的。

接下来,我想说明一下,人性为什么不行?
1. 人性有很强的随机性

这个有个很简单的例子,就是老板提的需求,让你写的报告,肯定不会通过的,也有时候竟然神奇的通过了。当你问通过的原因,可能并不是你写的好(符合很好的老板的语言逻辑),而是今天老板比较忙,被其他的事情耽误的,时间来不及了。有时候一直不让你通过,你可能改了很多遍,可能是非常牛的人写的,但是还是通过不了。这种随机性,和文本本身没有关系,也就是说你注意的是文本,你搜索和文本相关的关系,你还是找不到原因。这个时候老板忙这个影响因素出来了,他和你写的这个东西,在空间时间和概率上,并不能严格的认为有显著相关性,A 的发生影响 B 或者隐式影响 B,也就是符合马尔科夫过程或者隐马尔科夫。那么,在数据上,就很难标定出相关性,计算的时候就以小概率的形式已经 pass 掉了,所以,得到的结果,是非确定的。假设存在,但是结果的发生,不是大概率倾向某一种结果。计算出来的结果可能倾向某一方,但是在实际中表现的就是一直是 50% 和 50%,你给老板的报告,不管是谁写的,都是这样的结果。

2. 人性和理论会产生巨大的差别

举个例子,就是弹钢琴,计算机制作出来的音乐,和大师隐藏自己身份去谈的结果,显然大师的你会觉得更好听,为什么?虽然大师有瑕疵,但是你会觉得他有丰富的情感表达,丰富的随机性,这种随机性,来自于他的心情,而这个心情可能是想起来之前的开心的事(喜欢的狗安乐死了,狗死了在不同的人看来会觉得是开心的也有很多人认为是不开心的,从数据判定的角度是没办法核准的)也可能是弹错了,比如最近比较火的 郁可唯在 时光音乐会唱 水中花的时候抢拍却成了经典,从锚定上看,抢拍绝对是有问题的,音乐的基本规律上是不通的;那再从历史数据上反映,从音乐的角度,这种提前演唱提起欣赏者兴趣的技术是常见的,但是好和坏的判定,是没有大量文本的支持的,因为这个是根据当时的环境,当时的气氛,可能郁可唯在浴室里面唱,别人就觉得是不合适的了一下子听出了不好。这种理论判断和实际结果产生巨大的差别,也是难以用模型量化的。

最近除了 chatGPT 以外,还出了 robotics 的 transformer 的模型,其实就是把场景通过 图像生成的技术进行更换,产生新的数据,放到模型中去训练。可以想象为郁可唯在时光音乐会唱歌,我给他 p 一个中国好声音的舞台,她就是在中国好声音的舞台表演。虽然能生成更泛化的数据,也就是将郁可唯的失误变成一种大概率事件。但是唱歌产生效果,除了舞台背景的显示图像的因素,还有 背后的 伴奏根据实际情况配合表达,这种表达从语言描述的角度,是时间上的配合,但是这种配合是很少见的,如果把这种时间上的配合也用上面的技术泛化,调整到郁可唯唱前三个词后 0.1,0.2,0.3...秒产生数据,显然这种泛化是不准确的,因为这个情况就只对应这一个情况,他不是随机的,不是确定的,他没有一个必然的因为 A BCDE 就一定会产生 F 的 逻辑关系,产生结果的原因是可以事后分析形成语言性的表达逻辑,但是结果并不是一个语言逻辑表达推导下的必然结果。

所以我觉得用 AI 去模拟人性的东西,是很难的,只能实现语言表达逻辑上的拟人化,达不到实际的 AI 人性化。

看一下 chatGPT 自己的回答:



作为一种技术工具,人工智能(AI)无法实现真正的人性化,因为它缺乏人类自身所具有的主观意识、情感和道德判断等能力。
然而,AI可以通过编程实现一些逻辑拟人化的功能,例如通过深度学习和机器学习技术进行图像识别和语音识别,模拟人类的思考过程来完成一些决策任务。此外,AI还可以通过自然语言处理技术和机器翻译来模仿人类的语言能力,从而实现更加智能化的交互和服务过程。
虽然AI不能完全替代人类,但是随着技术的不断发展和进步,它可以成为人类社会的有力工具,为人类的生产生活提供更多的便利和支持。

完结,撒花。。。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1