日前,百度公司通过官方宣布渠道回应了关于推出人工智能聊天机器人的传闻,类ChatGPT的产品名称已确定为“文心一言”,英文名为ERNIE Bot,预计今年三月完成测试并开放使用。最初版本将嵌入其搜索服务中,这项工具将允许用户获得对话式的搜索结果。
据了解,ChatGPT 是 OpenAI 开发的人工智能聊天机器人。该聊天机器人基于 GPT-3.5 语言模型,经过训练可以对用户给出的指令做出详细响应。与其他聊天机器人不同,ChatGPT 可以回答后续问题、求解数学方程式、撰写文本、修复和调试代码以及总结文本。它还可以在语言之间进行翻译。众多业内人士表示,ChatGPT在各个领域的应用,将带来颠覆性的改变。
而这当中,首当其冲的就索引擎市场,ChatGPT的出现,为搜索方式增添了足够的想象。
一、伴随ChatGPT火遍全球
一场新式搜索之战已拉开序幕
浙江大学人工智能研究所所长吴飞教授表示,传统的搜索引擎只是将满足检索词条的搜索结果(往往是网页或文件)按照先后顺序排序返回,用户需要依次打开理解返回结果的内容,而融合了ChatGPT的搜索引擎返回的信息不是互联网上已有的网页信息,而更像是一种深度搜索,它会将与问题相关的答案通过语言合成这一机制整合后反馈给你,省去了查看罗列检索结果的过程。
谷歌母公司Alphabet首席执行官桑达尔·皮查伊也表示:“在不久的将来,你会感受到Google搜索中越来越多由AI驱动的功能,将复杂的信息和不同的观点提炼成易于理解的形式,帮助你提出的问题快速建立一个广泛的认知,从网络上学习到更多有可能是寻求额外的观点。”
受此影响,一场围绕ChatGPT的AI搜索之战悄然拉开序幕,其中最受关注的莫过于微软与谷歌之间的对垒。
2月7日,桑达尔·皮查伊官宣,谷歌正在开放一项名为Bard的对话式人工智能服务项目,并计划在其搜索引擎增加人工智能功能,用于合成复杂的查询材料。
紧接着,2月8日,微软推出了新的人工智能搜索引擎必应(Bing)和Edge浏览器。微软方面称,新版必应基于OpenAI的语言模型运行,比ChatGPT更先进,可以轻松切换到人工智能聊天模式;新版Edge浏览器还增加了“聊天”和“写作”功能,并将其嵌入到侧边栏中。
2月9日,微软宣布集成ChatGPT后,必应(Bing)和Edge浏览器下载量一夜之间暴增。移动数据分析提供商data.ai分析显示,必应应用程序的全球下载量猛增10倍, iOS版Edge浏览器也提升至实用类应用程序第三名。当地时间2月8日,微软早盘一度上涨超3%,重回“2万亿市值俱乐部”。
谷歌和必应在ChatGPT方面的积极布局,自然不能令百度无动于衷。
1月底,传出百度将推出旗下首款ChatGPT类人工智能聊天机器人平台的消息;2月7日,百度官方对该消息做出回应,确认推出的类ChatGPT名称为“文心一心”,将在今年3月完成测试并开放使用。
只是百度真的能在ChatGPT上有所作为,还是只想剐蹭热度,在ChatGPT身上捞取概念红利?
二、百度要想切实在ChatGPT方面有所作为
至少要迈过四道坎
对此,业内人士认为,百度要真的挤上ChatGPT这趟车,至少要迈过四道坎。
首先是现阶段自然语言生成模型难以逾越技术与成本间的鸿沟。
据国盛证券研报,在ChatGPT智能、顺滑的沟通体验背后,其有着多达1750亿个模型参数,OpenAI主要使用的公共爬虫数据集有着超过万亿单词的人类语言数据集。在算力方面,GPT-3.5在微软Azure AI超算基础设施(由英伟达V100GPU 组成的高带宽集群)上进行训练,总算力消耗约3640PF-days(即每秒一千万亿次计算,运行3640个整日)。这仅仅指的是ChatGPT在训练阶段消耗的算力。
小冰CEO李笛曾经举例说明,“ChatGPT主要是研究性质上的突破。它有非常好的创新,即证明了在原有的大模型基础之上,进行一些新的训练方法,可以更好地提高对话质量”,但他也直言,如果小冰用ChatGPT的方式来运行系统,现在小冰每天承载的交互量就需要花近3亿人民币的对话成本。一年下来,就是千亿元的成本。
另据OpenAI的CEO山姆·阿特尔曼(SamAltman)披露,在运行时,ChatGPT每次聊天成本约为几美分。根据TechCrunch估计,拥有100万用户的ChatGPT每天就要花费10万美元。未来如果想要大规模应用,成本仍需优化。
从这一角度考虑,由于目前国内在大规模AI模型的训练与应用方面与国外尚有差距,也意味着仍需巨大的资本投入,百度能否承受是个问题。
其次是效率和信息合法性问题。
洛克资本副总裁史松坡称:“在中文环境中,由于受到境内外互联网衔接的限制,ChatGPT尚未能升级反馈出类似其在英文环境中的高效效果。未来如果百度得到监管部门的认可,推出类ChatGPT应用,还要解决信息获取的合法性问题。”
“ChatGPT对信息、数据来源无法进行事实核查,可能存在个人数据与商业秘密泄露和提供虚假信息两大隐患。”北京盈科(上海)律师事务所互联网法律事务部主任谢连杰说。
然后是真实性和信息的实时性能否保证的问题。
在学术、科研等严谨的应用场景中,ChatGPT提供的答案并不一定都正确。由于ChatGPT只提供纯文本,不引用实际网站,目前并没有办法从ChatGPT 的输出中分辨真伪。
搜索引擎的索引可以实时更新,更为方便快捷,但对于大型语言模型而言,添加新的内容需要重新训练模型,耗时且成本昂贵。
最后是广告系统和信息有效归纳间的冲突性问题。
百度计划在用户提出搜索请求时引入ChatGPT 生成的结果,而不仅仅是链接,显然,这对于百度目前的广告系统而言是一大挑战。
毕竟从目前来看,广告收入仍是百度营收中的大头,2022年前三季度占比超50%以上,如果引入ChatGPT,百度恐怕很难在有用信息和广告推广之间找到平衡。
难道真如《百度将发布类似ChatGPT的应用?体验之后我很后悔》一文的作者所说:“百度到时候真的把这个嵌入到搜索以后,是不是只是为了更加方便的给用户推荐莆田系医院?”
蹭热度容易,但如果真的像ChatGPT本尊一样,切实让用户感到新颖、实用、有效,百度显然还有太长的路要走。