文 | 坚白鸣
ChatGPT式的纯粹生成式AI,曾一度被人们寄予取代搜索引擎的热望。但截至目前仍无法彻底矫治的间歇性“胡说”,以及无法与世界同步更新的局限,意味着取代的梦想仍然可望而不可即。
于是,AI搜索成为退而求其次的选择,企图继续以生成式AI的名义颠覆传统搜索。然而,尽管AI搜索赛道看似生机盎然,但究其本质,目前而言,AI搜索并非AI对搜索的借尸还魂,更多的其实仅仅是“套壳”——AI是壳,传统搜索是核。
而这层壳本身的效用也极为可疑。如果AI搜索可以直接给出答案,那又何必附上链接?貌似简洁严谨的背后,除非用户选择轻信,否则并不能真正提高效率。
搜索的核心问题
搜索的核心问题是匹配,是用户的查询需求与互联网已有信息的匹配。上世纪90年代以来,随着互联网信息的急速膨胀,匹配便越来越成为一个棘手难题。
第一代互联网巨头雅虎选择的匹配方案,是分类索引。这是传统整理信息方式的延续,由人工获取网站信息,然后按照一定的标准将网站分门别类,在大的类目下再建立小类目,本质上与图书馆的检索目录并无不同。而最后的呈现形式就是经典的门户网站,用户如果要查询特定信息,需要按照页面提示,一级一级地找下去。
2000年以后,以谷歌为代表的搜索引擎开始取代雅虎的门户网站,成为新的互联网信息入口,原因是它提供了更好的匹配方案。
从逻辑上讲,一个好的匹配方案,需要解决两个关键问题。首先是要解决信息量的问题,它所涵盖的信息越丰富越好,这是匹配的基础,只有涵盖的信息包罗万象,才有可能满足各式各样的查询需求;其次是要解决精准度的问题,针对具体的特定的查询需求,提供的信息相关性越高越好,最好是可以直接提供答案本身。
相比雅虎的分类索引,谷歌搜索引擎在两大关键环节均实现了突破性革新。
在信息覆盖度方面,谷歌搜索引擎引入了爬虫,它像蜘蛛一样顺着网页上的超链接,日夜不息地爬遍万维网的角角落落,将海量网页纳入收录范围。
在精准度方面,谷歌搜索引擎按照关键词,对爬取的网页进行索引,并借鉴了评估论文影响力的方法,提出“佩奇排序算法”(PageRank Algorithm),对网页的重要性进行评估,针对用户的特定查询请求,谷歌搜索引擎先将请求分解为关键词,然后在索引库中提取与关键词相关的所有网页,并结合网页重要性等因子,计算特定网页与用户查询需求的匹配度,最后按照重要性生成排序呈现给用户。
从本质上来说,爬虫软件和网页排序算法是搜索引擎的两大支柱,支撑着浩瀚的网络信息相对精准、更加高效地流向无数具体的查询需求。
明白了这一点,就不难看清当下AI搜索的“套壳”本质。
AI搜索的本质
前OpenAI研究科学家Aravind Srinivas联合创办的Perplexity,是这波AI搜索热潮的旗手,GPT3.5发布一周后,Perplexity就正式上线了,它自称是世界上首个对话式答案引擎。
相比传统搜索引擎,Perplexity最核心的特色是改变了用户与引擎交互的方式,在输入端,它可以理解用户输入的自然语言,并且支持多轮对话,在输出端,它直接给出经过归纳整合后的答案,并附上得出答案的信息来源。
此后,国内外厂商推出的一系列AI搜索引擎,基本都采用了相似的模式,仅在细节上略有不同。比如国外以浏览器起家的The Browser Company推出的Arc Search,在输出端,是一份图文并茂的“报告”;国内的秘塔AI搜索针对给出的答案还给出了结构化梳理,提供大纲、脑图等呈现形式。
交互方式的革新,显然来自于生成式AI的赋能。在大模型能力的加持之下,AI搜索似乎已经彻底动摇了传统搜索引擎以关键词为核心构建起来大厦,也让一页页根本翻不完的蓝色连接显得更加冗长低效。
但这只是掩人耳目的表面文章。事实上,传统搜索引擎的关键词体系以及网页排序算法,仍然是AI搜索正常运转所不可或缺。它们只是退居幕后,转而充当AI搜索通往浩瀚的互联网信息世界的接口。
这是因为,AI搜索引擎并没有直面搜索的核心问题提出崭新的解决方案,而只是嫁接了传统搜索引擎的匹配方案。AI搜索引擎虽然能够直接理解自然语言,但它最终仍然需要将其分解为关键词,因为它需要调用传统搜索引擎。同样,AI搜索引擎虽然能够直接给出答案,但事实上是基于传统搜索引擎排序算法的结果进行加工整合。
可以看到,目前为止,所有的AI搜索都在套壳传统搜索,区别只在于套的是自家的还是别人的。比如国外的Perplexity、Arc Search调用的都是谷歌、必应等搜索引擎,据中金公司测算,Perplexity调用必应搜索引擎及GPT-4的单个问题成本约为0.03美元。国内的秘塔,据披露有自建索引库,而昆仑万维旗下天工AI搜索,自称此前就有一个小型的搜索引擎,并将其作为自身重要的成本优势。
此外,近期相继更新AI搜索的腾讯元宝、知乎,在营销层面也都在强调自己的内容优势,腾讯元宝AI搜索接入了微信公众平台,“知乎直答”则以知乎多年来沉淀下的优质问答为基础。
智商税:一种提高效率的假象
但无论如何,无论是接入自家已有的传统搜索引擎,还是接入别人的搜索引擎,甚至自己从头开始新建一个引擎,只要爬虫软件以及基于关键词的网页排名算法仍然在起关键作用,那么,AI搜索本质上就仍然是没有自己独立灵魂的套壳,是对于传统搜索引擎技术的修修补补,而绝不是谷歌颠覆雅虎那样的匹配方案的创新。
那么,这种小修小补有多大价值?它果真可以帮助用户提高效率吗?
目前看来也许并没有,眼下AI搜索呈现结果的形式,本身看起来就像是一个悖论。
AI搜索既给出了答案,又附上了参考资料。从逻辑上看,这种呈现形式有两种可能,其一是答案本身不完善,更多的细节需要用户进一步阅读参考资料。那么,这意味着简洁而直接的答案其实并没有完全解决用户的问题,简洁只是一种假象。
其二是为了证明答案的客观、准确,参考资料可以作为答案的有力印证。但这种看似严谨的解答方式,实际上也同样并不能真正帮用户节省时间。因为如果用户同样基于严谨考虑,其实只有在完整阅读所有参考资料后,才能真正判断答案本身是否客观、准确,而如果进一步,即便参考资料与答案能够相互印证,但这也并不意味着它们全面完整地呈现了事物的全貌,为了验证这一点,其实还是需要更多的信息的。
当然,用户也可以直接选择相信答案,那么参考资料本身也就失去了存在的必要性,这确实大大节省了时间。但这毫无疑问是一种轻信。