最近,ChatGPT受到了大家的广泛关注,一时间讨论四起,成为现象级的人工智能产品。在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿。为何能给发展如此快速?本文通过评测该产品,对其优缺点进行分析,并对其未来发展方向进行展望。
春节过后,ChatGPT火爆出圈,成为现象级的人工智能产品。
据瑞银集团的一份报告显示,在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。而TikTok达到1亿用户用了9个月,Instagram则花了2年半的时间。
一、体验ChatGPT
作为一个多年从事数据产品经理的我大概一个月前听到ChatGPT。彼时我并没有太在意,不就是一个聊天机器人(ChatBot)吗,还能玩出花来?
家里的那台百度蓝牙音箱早都没人用了,除了能给小孩讲个故事,给老人报个天气,似乎也没有太多的应用场景。然而真正体验ChatGPT后,确实有被惊艳到。
1. 十四行诗
一开始体验并不顺利,网站拥塞严重,ChatGPT提示工程师正在hard working,并通过各种AIGC内容安抚我,其中就包括随手拈来的一段十四行诗:
在好奇的头脑中,聊天机器人 ChatGPT 坚强而真实,顶住请求的涌入,努力工作,完成每个人应得的。
但是,唉,服务器不能应付,错误信息响亮而清晰,“请尽快回来查看,”它轻轻地希望,就在它乞求片刻缓刑之际,重新出现。
当聊天机器人努力恢复其威力时,我们满怀期待,怀着期待的心情,为了有机会愉快地聊天和学习,看看它传授了什么知识和智慧。
所以紧紧抓住,等待它的回归,因为 ChatGPT 很快就会回来,你的耐心是值得的。
好吧,被你的诚恳和诗打动了,继续等待。10分钟后,界面出来了。
没有太花哨的东西:示例、功能介绍、limitations和一个输入框。这个limtations的初衷可能是考虑到毕竟还是一个验证版本,所以适当降低一下你的预期。
2. 语义理解
首先看看基本功:语义理解。
几个问题下来表现还是不错的,对一些时下的热词的理解是在线的,回答也比较全面。
接下来继续挖坑,上个智力题和脑筋急转弯。
问完这两个问题我已经有点吃惊了。如果你略懂聊天软件的原理就知道,这两个问题尽管对于人类来说三岁小孩都能回答,但对于机器人来说就没有那么简单。
3. 知识的深度和广度
接下来是知识面,先来个简单的:百科。注意它的每个回答都有赞和踩两个操作图标,晚点我们聊聊这个两个button是干啥用的。
没有问题,继续来聊社会学。注意它对上下文的理解和逻辑表达。
来点医学方面的。
继续文学方面的。注意它回答的是小说而非最近才上映的影视剧。
最后,整点专业领域的问题。
4. 道德观和伦理
接下来是很多聊天机器人的滑铁卢:道德,它的前任GPT-3就是栽在这个地方。
虽然回答的有点问题,但整体看出它的道德观是“无害”的,甚至表现出“友善”的一面。
聊到最后,我甚至有继续想和TA聊下去的感觉。
5. 体验总结
体验后,我是有点被震撼到的,我意识到ChatGPT已经远远不是一个简单的聊天机器人了。具体说:
1)ChatGPT有逻辑推理能力,不是简单的语义识别和搜索;
2)ChatGPT有理解上下文的能力,可以看做一种短时的记忆;
3)ChatGPT能根据你的响应,对回答进行调整,让人产生ChatGPT能理解人类情绪的错觉;
4)ChatGPT有强大的知识储备,自然 、人文、经济、社科等百科知识甚至专业领域的一些基础知识都问不倒它;
5)ChatGPT在输出的文字上面,逻辑组织能力很强,不是直接检索的结果,而是根据特定模板结构整理过的,这一点让人印象深刻。
重新认知ChatGPT:体验后,我觉得是时候重新认识一下这个“新朋友”了。
二、聊天机器人的历史
最早的聊天机器人在1964年就诞生了,它就是Eliza。Elaza是世界上第一个真正意义上的聊天机器人,可以让计算机与人通过文本进行交流。
这个对话机制是如何实现的呢?其实就是设置了一些简单规则而已,例如,当人输入“×××”,它就会反问“为什么会×××呢?”或者“还有谁×××呢?”。另外,还有例如“这个问题很有趣吗?”“说点其他的吧”等用于展开话题的规则。随机使用这些规则,就会让人感觉好像真的是在与人交谈一样。
70年代初,充分利用“知识”的“专家系统”MYCIN出现了。MYCIN的功能设计是对传染性血液病患者进行诊断,并开出抗生素处方。在它内部一共备有500条规则,只需要按顺序依次回答其提问,那么系统就能够判断出病人所感染细菌的类别,并为其开出对症的抗生素药方。
进入本世纪,ChatBot的发展虽然各方面都有了长足的进步,但除了Siri勉强合格以外,其他机器人效果都不让人不满意,不是太智障就是满嘴粗口。
2016年,微软在Twitter上发布了Tay(小冰的前身),2022年8月,Meta推出了BlenderBot 3,但均因聊天对话存在偏见、种族歧视、反犹语言等问题而饱受诟病。Tay上线后不到24小时就匆匆下架。谷歌也早在2021年5月就公布了LaMDA,但迟迟未作为产品发布。
从产品上看,涉及3个核心体验问题。
1)不够人性化:感觉不是在和正常人对话,机器人不是没有人设就是过度人设,分分钟能把天聊死;
2)不够智能化:没有上下文感知能力,答复简单,没有逻辑性;
3)道德观不可控:容易被人类带歪,没有自己的道德观。
三、ChatGPT的诞生
ChatGPT是OpenAI的产品。OpenAI总部位于旧金山,由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立。微软持有OpenAI 49%的股份。
不同于“老前辈”们,这次ChatGP的T火爆,在于它几乎完美的解决上述三个问题,而且更“更聪明”,在多轮对话能力以及对话交互友好性上展示了令人惊艳的效果,明显超越此前同类产品功能。
智能化:
除了能自主理解问题,ChatGPT还能把生成的答案用易于人类理解的语言组织起来,生成类似人类语言的文本答案,这一点让人印象非常深刻。
人性化:
1)可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。
2)ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。
3)ChatGPT 可以承认自身的无知,承认对专业技术的不了解。
关于第一点仁者见仁智者见智,它迎合了人类的情感需求,但以丧失准确性为代价。就聊天产品而言,或许准确性没有那么重要。
道德:
在前辈们翻车的道德问题上,ChatGPT保持了一个“无害”的道德立场,就大众价值看,甚至可以用“友善”来形容。这也是它能迅速破圈的一个重要原因。
四、ChatGPT的不足之处
不准确:
这个是被大家诟病比较多的地方,也就是ChatGPT有时会给出看似合理、但并不正确或甚至荒谬的答案,也是大家有时候会觉得它在“一本正经的胡说八道”。
我们谈到不足一定首先有个产品定位的问题,否则就没有任何意义。所以好和不好首先要看它用在什么地方。
如果作为聊天机器人笔者认为这个问题不算太严重,原因:
1、正常人说话也不见得100%准确,适当犯些迷糊反而是一种“正常”的表现;2、ChatGPT回复通常都是一段文字,人类对文字中的少数差错天然有校正能力。
没有实时性:
ChatGPT目前的语料库是2021年前的,所以它不知道卡塔尔世界杯,不知道最近才上映的《流浪地球2》和《三体》。
由于训练一次模型需要消耗大量的资金(据称要460万美金)所以目前无法做到更频繁的模型训练。并且受限于当前的算法,ChatGPT也无法从对话中实时进行学习。
如果作为搜索引擎,实时性是ChatGPT后续需要重点解决的问题。
不够专业;
也有人质疑它不够专业,不能回答自己专业领域的知识,如医学、物理学、金融等专业领域。
从技术上这是个比较容易解决的问题,加几个预训练的语料库就能解决,但这里面涉及到数据的开放性、训练的成本、如何进行标注等其它问题。
如果作为垂直领域的专家系统、轻咨询工具,专业化也是它未来要解决的问题。但如果ChatGPT本身的定位就是数据加工引擎和平台,那么这个问题可能会通过生态系统来解决。
ChatGPT的成功包含了很多因素,包括组织、技术和产品各方面。我们先从产品方面分析一下。
1. 大幅提升核心用户体验
ChatGPT作为一种AIGC工具,可以让其回答问题、写作文、翻译文章,甚至写代码。迅速的响应能力和较为靠谱的回答让大家直呼其“真正像人类一样聊天交流”“特别能聊”,其在核心用户体验方面大幅提升。
首先是内容的深度和广度。ChatGPT对自然、人文、社科、经济等方面的知识都有广泛的覆盖,当然专业的领域,如科技、医学、工业、金融等领域它的知识深度还是不够的,这和它目前样本数量有关系。
其次是准确度,据中国信息通信研究院联合中国人工智能产业发展联盟对ChatGPT进行的测试显示:
ChatGPT在百科检索、数学问答、文学交流、常识问答、知识推理等对话任务上的意图识别率均达到98%左右,在生活闲聊上的意图识别率约为95%,已具备较好的语义理解能力。
从响应速度看,笔者验证问题能在5秒内做出响应,符合2/5/10的用户响应原则,个别问题甚至可以秒回,这还是在网络拥塞的前提下做到的。
当然,用户体验不止包括生成内容的流畅性和语法的正确性,还包括生成内容的有用性、真实性和无害性。
ChatGPT从GPT3开始,团队就明确了对模型的优化目标:
从目前大家的反馈看,表现还是不错的。当然目前ChatGPT的道德观是来自OpenAPI 标注团队,无法确保它不被其它因素干扰。
就笔者的整体体验而言,ChatGPT已经从前几代机器人分分钟就能把天聊死的‘尬聊’阶段,直接跨过“能聊”进入到了“想聊”的阶段。
2. 专注于自然语言和大模型算法,不断迭代
OpenAI于2016年确立了两个主要目标:制造通用机器人和使用自然语言的聊天机器人。但是,从GPT-1发布之后,OpenAI逐渐将所有重心转向大型语言模型的研发上,也就是更加注重自然语言领域,并为此制定了两个目标:
有了研究聚焦,研发团队就可以专注于解决几个核心体验问题,在一定程度上加速了研发和技术商业化进程。
表:历代GPT的发布时间,参数量以及训练量
ChatGPT绝对不是一夜之间冒出了的,它的第一个模型发布已经是5年前。5年对于任何一个产品的进化都是一个漫长的时间。GPT3.5是在GPT3验证失败基础上的又一次验证而已。
3. 大胆创新
GPT3.5的发布不是在一个等它完全成熟才发布,更像一个收集用户反馈的试错版本,没想到一夜爆红,这可能是连OpenAI团队和微软都没有预料到的情况。
GPT3.5发布后的种种事实也表明,不够准确、偏见等问题在这个版本中尽管还不够完美,但属于可控的范围,没有严重影响用户体验,否则不会有这么多注册用户。
这也是值得所有产品经理思考的问题,就是不要过度追求‘完美’的产品,快速迭代和试错才是应对不确定市场的唯一法则。
当然,我们也应该认识到,ChatGPT的成功包括了企业创始人的雄心,大资金的投入、强悍的研发团队、技术加持、方向正确和团队不断试错等因素,不止是产品设计的问题。
五、ChatGPT的应用方向
作为平台级的产品,ChaGPT在C端和B端都有广泛的应用价值,以下是其主要应用领域。
1. C端业务场景
聊天和对话:如客服机器人、陪护机器人、虚拟人、在线翻译..
搜索和查询:如搜索引擎、知识词典、轻咨询…
内容创作(AIGC):如文本生成、代码生成…
六、B端业务场景
B端业务,按照OpenAPI平台开放程度,包括三个层次的应用。
企业知识库(数据共享):
许多企业都有自己的知识库,如果ChatGPT可以开放其预训练的语料库,那么它可以把企业的知识库作为预训练语料导入进去,从而生成特定行业或者特定企业个性化的知识库。
专家系统(模型共享):
这方面的例子是Cicero公司的文字策略游戏系统。这个系统可以与人类互动,可以使用战略推理和自然语言与人类在游戏玩法中进行互动和竞争。Cicero的核心是由一个对话引擎和一个战略推理引擎共同驱动的,而战略推理引擎集中使用了RL,对话引擎与GPT3类似。这样一款游戏的原理如果应用在组织决策领域,那么其影响不亚于它在聊天工具上所取得的成绩。
营销工具(模型应用):
这是目前最简单的应用,直接调用ChatGPT平台的API接口,如营销文案的创作。从理论上,ChatGPT的知识都是来自人类,所以它在创新方面无法取代专业人士,或许提供一些原始的文案和设计素材才是它在AIGC领域的定位。
作者:涛哥,微信公众号:涛哥笔谈。前华为高级产品经理,TOGAF认证专家,PMP认证专家,PPV课数据科学社区创始人,数字化转型实践者
本文由 @涛哥 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议。