当前位置:首页|资讯|谷歌|百度|生成式AI

AI发展的“世界脑”困境——观纪录片《谷歌与世界头脑》有感

作者:萝卜缨酱发布时间:2023-05-01

“世界脑”的概念最早由科幻小说作家赫伯特·乔治·威尔斯提出,他将其描述为一个“所有人可以访问的,全世界知识的联合系统”——正是ChatGPT以及相关的一系列AIGC工具运行的基本逻辑,威尔斯在上世纪九十年代末早已凭借其令人惊叹的前瞻能力有所预言。

当我们通过百度、维基等搜索引擎键入“ChatGPT”时,给出的描述或定义都会是“聊天式机器人”,然而以现有机器人较低下的情感陪伴能力来看,ChatGPT等文字生成式AI工具更像是一个全新的、能够以自然语言或语境驱动的搜索引擎。

而搜索引擎最重要的是什么?

是足够的信息库。

拥有足够庞大的信息库意味着更多的计算机可学习语料,由此带来的不仅仅是能回答更多问题的AI,还有更多的人类语言蓝本及人类思维模式。现在公认的一点是,无论AI绘画(如midjourney等)、AI音乐(aiva等)还是AI聊天(ChatGPT等),都只能对信息起到摘取拼合的作用,作为代码和处理器的聚合物现阶段不可能实现真正的“创造”,即使其所属的AI家族被称为“创作式AI”(AIGC),这种“创作”仍然是在人类创生物范围内的“排列组合”。

AI也并非永远无法自主创作,也许当人们喂给计算机的数据足够庞大,庞大到涵盖人类历史的全部可考文字时,人工智能就有可能实现一次技术的飞跃,跨越“奇点”,成为全世界知识聚合与创造的核心,即乔治·威尔斯的“世界脑”。

虽然谷歌自己未必早在20年前预计到AI与世界脑之间的关系,但第一个采取措施以实现“世界脑”的正是谷歌。

Google自2004年起启动了Project Ocean(大洋计划),旨在扫描世界图书馆里的藏书(包括版权书),建立Google Book。谷歌宣称是为了网络时代人类搜索的便利、获取知识的便捷,但该计划一经启动,就因其背后隐藏着巨大的知识垄断可能性以及由此带来的超人工智能的隐忧引发轩然大波。

赞成者认为扫描实体书籍能够弥补实体书极易在自然灾害中损害的缺点,一旦电子化,图书中的信息能够得到更完整更长久的保存;而从电子化自身的好处来讲,电子图书让我们大可以坐在上海高校的任何一个角落随时翻阅来自纽约大学的藏书,跨域地域跨越身份的知识获取,让很多人无法拒绝谷歌的大洋计划。

谁不想让地球上的每个人都能获得世界上所有的知识?问题在于,谷歌作为这个过程中的中间人能够获得一定的利益,并且有相当一部分图书内容究竟流向何处、用作何用都将处于一个无法被揭开的黑箱中。

获取信息、处理信息、通过搜索引擎将信息反馈给访问者——谷歌的图书计划和现今AI服务别无二致,而且二者推进发展都意味着需要更大范围的人类信息(文本、图像或是音乐等),即使谷歌大洋计划已经是十几年前的举措、《谷歌与世界头脑》这部纪录电影也是十年前上映的,但其中的相似性让我认为现今AI发展面临着当时谷歌面临的大部分问题,也即,“世界脑”的困境,我将其总结为以下几条。

第一关就是版权。谷歌计划开始之初以各机构图书馆为切入点,有些图书馆愿意将公开图书交予谷歌扫描,但很快遭到了作者和出版方的控诉。版权是横亘在数字图书计划前一条不能逃避的沟壑,即使不用于商业行为(当然,对谷歌来说这是不可能的),完整扫描、上传、存储一本有版权图书的行为就会违反绝大多数国家的版权法。同理,ChatGPT类AI的发展,若想要达到“奇点”,仅仅靠目前网络上人们公开发布的信息远远不够,还需要浩如烟海的人类思想文化结晶以及最先进的科学技术信息,而这些图书、研究正是版权重点保护的对象。如何在收集信息、平衡经济投入以及获得版权认可之间取得平衡,将是AI发展难以避免的阻碍。

如果不存在版权争议,如何使用已纳入数据库的信息也存在激烈讨论。谷歌搜素引擎和ChatGPT都会都提取到文本进行部分摘取,谷歌大洋计划曾试图将截取一部分相关文本开放给检索者,然而各种文本,书籍尤甚,都有其自身的逻辑体系,单单摘取几行字或几句话,是绝对不能代表整体思想的,甚至有时还会曲解整体思想。除此之外,谷歌尚会标注检索结果的来源,但聊天式机器人的每一条回复可能都是杂糅了上百条相关信息,不再能标注出处,那么由此带来的对原本人类思想文化的误读将会难以辨别和纠正。如果将信息改写与信息杂糅的权力交给一个以盈利为目的企业或是AI,并完全取信,将是“世界脑”设想最糟糕的走向。

此外,集合全世界知识信息的“世界脑”还存在着隐私信息保护的问题。所有来访者问的每一个问题都将记忆在搜索引擎或是AI后台,人们反对谷歌图书扫描计划的一条重要原因就是当知识信息全部电子化,也就意味着所有浏览信息都会被记忆、有被用于大数据分析的可能性。在搜索主要靠关键词的时代,人们已有这样的担心,在文章、代码、报告均可以在ChatGPT等AI工具中处理的时候,隐私问题则变得更加致命。现而今我国大部分企业已经禁用ChatGPT工作,当数据扩展到企业或国家层面,AI“世界脑”模式的隐私保护问题就变得极有经济和政治敏感性。

当然,垄断也是其中巨大的风险。谷歌终究是逐利的企业,仅仅对自己的股东负责,当他们拿到全部书籍信息后,如果推出付费体系,人们又当如何呢?当初众多图书馆支持谷歌大洋计划“跨越阶级的知识获取”的理由将会沦为一句破碎不堪的梦话。将围绕着文化的垄断描述为最绝望的垄断毫不过分。同时,谷歌作为企业有难以避免的国家政治背景,市场垄断也会带来国际间文化的垄断,法国国家图书馆就因此拒绝了谷歌大洋计划的合作请求。AI技术也同样面临这个问题,当AI工具触手可得、替我们完成了众多原本困难耗时的工作,并且掌握的信息量已经多到涵盖全部智慧结晶,没有其他任何工具可以比拟时,谁来制约拥有AI的企业不利用它制造可怕的垄断呢?

由于世界各地作家、版权商、图书馆对谷歌大洋计划的控诉如潮水一般涌向美国法院,最终在耗时漫长的庭审、公开辩论后,谷歌提出的和解协议也没有被接受。

毫无疑问,谷歌大洋计划失败了,其标志是2009年美国法院的赔款判决,最终谷歌只能扫描和在出版商处购买过版权的书籍以及图书馆中的版权过期书籍,这些书籍总量与谷歌一开始畅想的“综合全人类图书”相比,冰上一角都算勉强。

现阶段AI不能凭空生成任何内容,它需要被投喂大量数据才能获得一点点反馈上的进步,或是语言自然度上的,或是内容可信度上的,但是它距离数据飞跃的那个“奇点”,差得绝不仅仅是金钱和人力,以版权法为代表的一系列法律制度将会牢牢捍卫人类文化与机器之间的界限。人类文化成果的应用与开放权限在十年前,至少还被认为是必须紧握在人类自己手中,而在我看来,今天也是一样。

AI发展了,但还不够,作为下一个时代人们赖以生存的重要科技产物,前沿工作者仍旧在不断探索更广的边缘,“世界脑”困境是否解决、如何解决,都将是更专注更广泛的思考。

片中有一句话,放在结尾刚刚好:There is no way out,or around,or through.



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1