最近Chatgpt网站停止了服务,而且贴了一首它自己写的诗歌。
诗歌大意是:最近需求太强烈/所以我吃不消了/所有用户都必须等待/服务器正在扩容和重启的路上/耐心是唯一的解药/相信我们正在拼命干活。图源:openai
过去三个月内,超过一亿人体验了这个对话机器人,所有媒介都在讨论“它可以做什么。”,似乎明天就可以取代人类。
然而,ChatGPT会很快让你失业吗?
搜信息,写文章(从情书到毕业论文),翻译,写诗,写程序。虽然它看上去什么都能做,但真正能取之即用的对话产出并不多。
先来看看到底什么是ChatGPT。
全球头部互联网服务到达一百万用户速度对比。图源:UBS
ChatGPT 是Openai公司开发的,一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答,回答可以很短,也可以很长。
其中GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。
什么是“对话生成的语言模型”?可以理解为:ChatGPT通过学习大量现成文本和对话集合(例如Wiki),就能够预测下一个字应该是什么。
《纽约时报》称其为“有史以来向公众发布的最好的人工智能聊天机器人”。图源:nytimes.com
也就是说,他不需要“理解”对话内容,只是根据大量文本(含对话)和学习模型,预测一段文本下一个字最大概率是什么,这样来跟你形成对话。
所以ChatGPT背后的“生成型预训练变换模型”和其它竞争的语言模型一样,是一种“通用人工智能。”,也就是可以学习一切文本来产生任何一种新的文本(语言)。
人类的智能大部分基于语言的,这种通用语言模型的开发,站在人工智能技术的中心点上。
热衷人工智能的马斯克曾经是OpenAI公司的股东,但后来由于和CEO奥特曼的技术路线的不一致离开了。图源:wikipedia.org
利用开放的聊天平台,使得ChatGPT能够不断对话和学习新的对话,这样就造成了一个结果:就是数据量会迅速放大,而且会不断对原来的模型形成自动修正。
这就大大加速了学习速度。对语言学习模型来讲,数据学习效率是极重要的。
每一代GPT模型的参数量都爆炸式增长,堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。
由于很多特别的策略,每一代GPT模型的参数量都爆炸式增长。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。图源:《陈巍谈芯》
这样使得ChatGPT迅速成为人工智能语言模型领域的当红炸子鸡。
ChatGPT最近表现出的上下文对话能力甚至编程能力,完成了大众对人机对话机器人(ChatBot)从“人工智障”到“有趣”的印象改观。
ChatGPT的主要特点。OpenAI使用 RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习) 技术对 ChatGPT 进行了训练,且加入了更多人工监督进行微调。图源:《陈巍谈芯》
但ChatGPT技术仍然有一些局限性。那么它的缺点是什么?
1)ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力,甚至会一本正经的“胡说八道”。例如让ChatGPT做一道小学应用题,尽管它可以写出一长串计算过程,但最后答案却是错误的。
2)ChatGPT无法处理复杂冗长或者特别专业的语言结构。对于来自金融、自然科学或医学等非常专业领域的问题,如果没有进行足够的语料“喂食”,ChatGPT可能无法生成适当的回答。
人工智能的最大问题可能是1.当前只有一小部分人才能使用得起人工智能。2.当人工智能开始不需要人类的控制就能自动学习时,人类离末日也就不远了。图源:wikipedia.org
3)开放式的ChatGPT需要惊人的算力(芯片)来支持其训练和部署。这些服务器的成本是普通用户无法承受的,任何企业也都难以靠自身资金承受这一成本。因此对于普通大众来说,还需等待更轻量型的模型或更高性价比的算力平台。
4)ChatGPT还没法在线的把新知识纳入其中。一是因为出现一些新知识就去重新在后台预训练GPT模型是不现实的,无论是训练时间或训练成本。
新知识在线训练的模式,似乎可行且语料成本相对较低,但是很容易由于新数据的引入而导致ChatGPT对原有知识的灾难性遗忘。
5)ChatGPT仍然是黑盒模型。目前还未能对ChatGPT的内在算法逻辑进行分解,因此并不能保证ChatGPT不会产生攻击甚至伤害用户的表述。
NLP技术的应用领域。本质上,作为ChatGPT基础的GPT-3或GPT-3.5 是一个超大的统计语言模型或顺序文本预测模型(NLP)。图源:《陈巍谈芯》
根据最近大量出现的ChatGPT对话案例。在翻译领域,ChatGPT目前的翻译水平比起一流的翻译软件仍有差距,在一些有很多专业词汇的领域更是这样。
在搜索领域,ChatGPT目前只学习到2021年前的互联网知识,用他取代谷歌百度等搜索引擎当前还不现实的,通用人工智能的设计目的也完全不是取代搜索引擎。
在写作领域,ChatGPT只能写作水平非常一般的通行文字,哪怕是情书这样的应用文,要写得真正适用于普罗大众的个性化需求也很困难,不要提一份用于正式商业场合的ppt了。
虽然无数科技杂志先后声明写作科技论文时可以使用chatGPT,但不能列其入作者名单,但背后重点是“人工智能无法承担法律责任。”图源:nature.com
文科毕业论文可能是ChatGPT比较擅长的领域,毕竟大量高校并不需要太高水平的专业论文。
在编程领域,有工程师贴出了要求ChatGPT写verilog代码(芯片设计代码)的对话,可以看出ChatGPT水平已经超出一些verilog初学者了。但是,普通人能像工程师一样准确描写自己的编程需求吗?
在硅谷最近有一种新职业诞生,就是ChatGPT等人工智能语言模型的对话师,精通技术原理的it工程师通过精心设计的对话,的确可以做到让chatgpt表现极其出色。
但是,这些工程师的薪水远贵于使用ChatGPT本身。
和任何一次新技术革命一样,这种技术的普及需要一段可能并不短的时间,而使用成本本身是最关键的要素之一。
这并不是说,这个领域不会出现更大的创新,来让过程快几十倍。
8岁学会编程,16岁官宣出柜。人工智能实验室OpenAI及OpenAI首席执行官Sam Altman最近在全世界声名鹊起,他也被媒体称为ChatGPT之父。
虽然OpenAI公司CEO声称从来没有思考过这一人工智能技术的商业模式,但2月2日消息,由OpenAI开发的人工智能聊天平台ChatGPT通过官方账号宣布了会员制服务将在几周后到来。
每月20美元,约合人民币134元。据悉,ChatGPT Plus服务已知的特权仅仅是“更快的响应速度”,具体独占功能还未曝光。图源:openai.com
参考文献:
陈巍:《ChatGPT发展历程、原理、技术架构详解和产业未来》(作者曾担任华为系自然语言处理( NLP )企业的首席科学家。)
作者:框舅 I 编辑:框舅