美国人工智能公司OpenAI推出的聊天机器人ChatGPT“火”出了科技圈,也惊动了学术圈。当传统学问进入数字时代,以ChatGPT为代表的人工智能会改变人文学科的未来吗?
澎湃新闻(www.thepaper.cn)邀请来自哈佛大学、北京大学、南京大学、上海交通大学以及德国柏林马克斯·普朗克科学史研究所的五位学者,共同讨论ChatGPT及人工智能技术如何参与人文学科的研究与教学。这五位学者均为当下数字人文领域的中坚力量,他们曾接受历史学、哲学或计算机科学的博士训练,又在数字人文这一跨学科的领域中,将计算机工具与方法引入人文学科,也使科技工作者逐渐理解人文学科的学术语境。
圆桌嘉宾:
王宏甦,哈佛大学计量社会科学研究所研究员、“中国历代人物传记数据库”(China Biographical Database,简称CBDB)资深项目经理
王涛,南京大学历史系教授
陈诗沛,德国柏林马克斯·普朗克科学史研究所研究员
杨浩,北京大学人工智能研究院副研究员
赵思渊,上海交通大学历史系教授
来自人文学科的ChatGPT使用测评
澎湃新闻:各位在人文学科相关的工作中用ChatGPT了吗?目前为止体验如何?
王宏甦(哈佛大学计量社会科学研究所研究员):我们在开发哈佛大学“中国历代人物传记资料库”(CBDB)的过程中,ChatGPT 和AI编程工具 Copilot这类人工智能工具已经完全融入日常工作。我们会和 ChatGPT 讨论方案设计。比如上周的一个案例是,我和同事在讨论如何对百万级文件按照一定的结构进行整理,希望找出最优的程序设计逻辑。在讨论过程中,ChatGPT 也提出了建设性方案。在工作中我们会把 ChatGPT 当作平等的同事来讨论问题。
在程序设计和规范方面,ChatGPT 是一位非常有经验的同事。而在人文的问题上,我们当下很少使用 ChatGPT。比如下图是最近我们在工作的时候涉及的一个官职名称,“东北面朔方江陵道都统使”。这是十四世纪朝鲜王朝的官职,而 ChatGPT 给出了完全错误的说明:
受访者供图
在我们的工作中,ChatGPT的使用场景是很明确的:能够快速验证的问题。比如,程序写得是否正确、程序的方案设计得是否合理,我们可以通过运行和测试,对 ChatGPT 的答案进行直接验证。
王涛(南京大学历史系教授):我和几个同伴将于3月18日在南京召开一个研讨会——“ChatGPT与人文学科的挑战:人工智能对人文学科影响的跨学科会议”,我们请ChatGPT来撰写会议征稿启事,它在几秒钟内生成的会议通知完整准确、文从字顺,已经超出一般学生的水平。
ChatGPT撰写的会议通知
刚开始上手的时候ChatGPT给我的感觉是惊艳。它对使用者提出的各种需求都能够给出有逻辑、符合一定预期的结果,让人震撼。而且,它能够应付各种语境、各种场景、各种方向上的需求。从OpenAI的官网介绍可以了解到,ChatGPT的功能其实不仅局限于问答机器人,而是一个多面手,可以编写程序、修改代码、撰写提纲、多语翻译等等。可以说,ChatGPT以一己之力,取代了程序员、翻译、律师、数据分析师、秘书、会计师等不同工种的职位。
我们可以将ChatGPT当作一个非常智能的研究助理,是研究者大脑的延伸。从工具论的角度看,以ChatGPT为代表的人工智能产品的出现,跟汽车等交通工具在人类社会的出现,具有相似的意义。如果说现代交通工具是人类脚力的延伸,那么ChatGPT就是人类脑力的延伸。
因此,从积极的角度说,ChatGPT是在知识生产领域为人类提供服务,可以起到协助的作用,帮助使用者提高知识梳理的效率。但是,ChatGPT是否能够完全进行知识创新,特别是进行探索性研究,目前还看不到这种可能性。从人工智能的工作原理来看,ChatGPT的知识体系来自对人类现有知识结构的模型训练。它的能力边界,跟ChatGPT被投喂的数据在数量、丰富度、多样性等方面的因素密切相关。
在官方的介绍中,ChatGPT所依循的语言模型,数据来源时间截止2021年。理论上说,它对2021年之后人类社会的知识是一无所知的。而且,研究者已经发现,ChatGPT虽然是一个能够熟练进行“多语种”输出的平台,可以无缝在不同语言中切换,但是,在高频语言与低频语言之中的表现存在显著的不同。这是因为ChatGPT所接受的语言训练模型存在数量上的差异性,比如ChatGPT在英语语境中的表现更加智能,而在中文语境的表现只能算是差强人意。它甚至还存在中文知识的盲区。
我曾经试探ChatGPT,是否知道“地上本没有路,走的人多了,也便成了路”这句话出自何处。ChatGPT倒也坦率,它说出了鲁迅的大名,但并不知道来自哪篇文章。可见,在中文语料的训练上,ChatGPT还存在缺陷。不过,随着微软与OpenAI的合作,ChatGPT将获得升级,能够得到更加即时的网络信息。
但是,ChatGPT仍然是一个“任务导向性”的工具,它只能对使用者发出的指令进行反馈,还不存在“主动性”。所以,是否能够用好ChatGPT,还是要基于用户的设计。最明显的一点在于,为了规避伦理上的问题,ChatGPT的后台设置了一些屏障,用户不能就违背公序良俗的问题发问。但是,用户依然能够通过间接提问的方式,“诱导”ChatGPT给出答案。可见,ChatGPT对“道德”并无感知。
陈诗沛(德国柏林马克斯·普朗克科学史研究所研究员,台湾大学计算机博士):ChatGPT作为一个产品成功吸引了大众的目光,因为它把“Chat”即“聊天”的部分做得非常好,生成的文章或回答,起码在格式上看起来很完美。
但我觉得大家对它的评价过高了。人们觉得它很“智能”,会“思考”,但事实上它只是在“模拟”,模拟得非常逼真,以至于大家觉得它好像是一个真的机器“人”。OpenAI的官网说ChatGPT是“Optimizing Language Models for Dialogue”,一个为聊天对话优化的语言模型。语言模型的概念是,你向它提供很多文字(文章),之后它对这些大量的文句进行整理(大致上是基于统计),以预测下一个文字或句子应该是什么。ChatGPT这个语言模型产品结合强大的类神经网络以及大量文本,完成得很好,但基本上它做的只有一件事——将数据库里的文章拆分成句子,通过你提出的问题,去预测和挑选成功几率最高的下一个句子,再生成答案反馈给你。
我认为ChatGPT跟大部分人想象中的“智能”还有很大落差,它的实作中还没有人工智能学界 (AI) 中所谓的 “推理”环节 (reasoning),也没有大部分人想象中的“自主学习”,它只是文字的堆砌、基于统计的文献整理,它并没有理解到语意,因此它从大量训练文本中整理出来的回答有可能是错的。
至于说人类社会“被机器统治”……我们距离这种浪漫的想象大概至少还有一百年吧。
杨浩(北京大学人工智能研究院副研究员,北京大学哲学博士):一开始我也被惊艳到了。在技术上,ChatGPT的算法底层其实很普通,国内外很多公司都能做大语言模型。但它做了很好的优化,用户的命令完全可以自然语言的方式呈现出来。自然语言理解和自然语言生成,一个相当于阅读,一个相当于写作,目前ChatGPT都做得很好。更重要的是,它能适配更多任务,是一种初步的通用人工智能,能写代码、做翻译、读古文、写报告,各种想不到的任务都能做。过去大众熟悉的人工智能比如AlphaGo,只能下围棋,不能下象棋,完全不通用。ChatGPT的优点还在于可以通过与用户进行交互,进行自我学习和提升。通过人机交互不断提升,学习到对话人更偏好的答案。过去的模型能够生成一个答案,但它不知道这个答案是不是人最喜欢的,现在ChatGPT根据上下文来判断你的喜好,答案更符合对话人的喜好。这种算法多年前就有,只是现在有了数据的加持以及算法的优化,交互的体验与对话的质量都提升了。
但是ChatGPT所采用的深度学习方法有一个严重的问题,就是它没有常识,不知道自己在说什么,它只能在语言上进行模仿。它有意义的壁垒和障碍,对文字表达的意义完全是无知的。而且它不会推理和类比。虽然ChatGPT是通用人工智能,和此前的非通用人工智能确实区别显著,但它离真正的“智能”还很远。甚至如杨立昆(Yann LeCun)认为,大语言模型(LLMs)是一个岔道(off-ramp)。通过这个方式不可能实现真正的人工智能,因为它只学习到了语言的皮毛,没有真正学习到其中的知识,它所掌握的知识都是不可靠的。但它的厉害之处在于它可以一直跟你对话下去,特别是通过人机交互使得它回答问题的能力越来越好,这是我认为它能“出圈”的主要原因。
赵思渊(上海交通大学历史系教授):我想在研究之外先讨论教学的部分。我也看到了此前ChatGPT对于以写作为主要考核形式的大学课程的冲击。对于这一点我持比较积极开放的心态。也许就像围棋一样,当人工智能击败了人类选手后,人工智能反而成了围棋竞赛中很好的辅助工具。如果我们的大学教育的目的仍然是培养具有独立思考与解决问题能力的人的话,人工智能也可以成为课程教学很好的辅助工具。我自己每年都教学术写作,我也尝试了把写作题目喂给ChatGPT的反馈。至少目前,ChatGPT所能做到的是写出可理解的文本,而不是可信的文本。或者说,ChatGPT的工作逻辑,并不需要去进行证据的检验。这两者是有区别的。我看到很多讨论都模糊提到这一点,但还没有足够明确地指出。而学术写作的输出是需要基于可靠证据的——这一点对于自然科学、人文与社会科学、应用科学研究,都是相同的。也就是说,学生仍然要在我们的课堂上学习如何获取和处理证据,以支撑研究结论。并且,在此基础上,更为重要的是,提出问题。在学术研究中,什么样的问题是值得去问的?是更重要的问题?我想,这是我们在大学中特别需要教会学生的。正是基于这样的认识,ChatGPT可以成为课堂教学的一部分。这学期的课程我已经准备让学生们试着把自己设计的研究问题扔给ChatGPT,看看会得到什么样的输出。这可以帮他们去检验和反思自己的研究提问。这甚至可能比老师直接告诉学生,某种提问方式在研究上是死胡同,还要更有效。
回到具体的研究中,我的看法是同样的,我愿意将ChatGPT视作一个辅助工具。如果输入一段史料给人工智能,会得到什么样的结果?这会辅助我的思考——这仍然是一个检验与反思的过程。在更早的时代,我们已经经历过各种技术变化对于历史学工作方式的改变了。毕竟历史学也是一门时间太久的学问。历史学的核心是处理时间变化的概念。这意味着,随着“当下”的时间坐标的不断移动,“当下”与“过去”的联系也在不断发生变化,有一些会凸显,有一些会消隐。历史学家是在这些变化中发现问题,设置研究议题。对时间变化的叙述,是以具体的资料为载体的。这也意味着历史学家总是在具体的环境中,借助一定的工具处理史料。这工具当然也在一直变化。ChatGPT当然一定会改变历史学家的工作方法,甚至这个行业的生态。这当然也会带来激动、焦虑或其他情绪。在所有这些情绪之前,更需要问的问题也许是,有了一个可理解的人工智能的“当下”,其与过去的联系可能已经发生了怎样的变化?这种变化对于历史学议程设置的影响可能是更深远的。
澎湃新闻:要在人文领域使用的话,首先要过中国古代文献这一关。杨浩老师在用计算机进行古籍整理方面很有经验,您认为ChatGPT的古文处理水平如何?随着机器的自主学习,它是否会进步到人类的水平?
杨浩:我没有去测试古文,但是做了调研,我认为它不会达到顶级专家的水平,但是可以超过一般的学生。
ChatGPT的古文理解与翻译水平并不比GPT模型的祖宗——BERT模型强太多。BERT全称是Bidirectional Encoder Representation from Transformers(来自Transformers的双向编码表示),是2018年谷歌引入的,我认为它才是真正具有革命性的一种自然语言处理技术。它开启了预训练模型时代,就是先用海量数据进行训练,再根据具体需求进行细分微调。
北大数字人文中心在古文上训练有BERT模型,在古文的自动标点、自动句读和命名实体识别上进行试验,表现都很优异。其中自动标点的结果令人惊叹,能达到90%甚至更高的正确率,实际使用的话,点断的错误其实比较少。根据相关老师的说法,它已经超过一般古典文献硕士生的水平。
BERT模型的训练实际上就是两种算法,就像我们做阅读理解,把其中一个单词去掉,根据上下文做完形填空。自动标点相当于把标点去掉,让机器预测这里要不要加标点。另一个算法就是预测下一句话是什么,仍然类比我们的阅读理解——空出一句话,或者打乱顺序,让机器选择,哪一句话更可能是下一句。算法本身并不复杂,但却能表现出非常神奇的效果。过去我们认为,要把古文读懂很难,人物、官职、地理、朝代都要懂才能加标点,但是计算机却通过简单的概率运算,从大量专家学者已有的标点语料中训练,最终能达到一个很高的标点水平。
目前人工智能能够学习到古文中字与字之间的规律。那么未来会不会有更好的模型,学到古文当中更多信息?我想会有的。但是仍然不会超过顶级专家的水平。因为很难用算法的方式来实现“理解”。现在人工智能只不过给我们一种“理解”的假象。网上有一篇文章用《大唐开元礼》检验ChatGPT对文言文的理解能力,包括标点、翻译等等 (《ChatGPT对中国古文的理解》,微信公号“智能数字人文”),这个任务交给专家学者来说都很难,果然从结果来看ChatGPT的回答就是在一本正经地胡说八道。ChatGPT靠的是模仿,超过一般专家有可能,但超过顶级专家的水平是不可能的。
随着机器的自主学习,它是否会进步到人类的水平?关键在于这个“人类”是谁。我觉得我不如它。它可以对任何类型的文献——医学、数学、旅游、文学等各种类型古籍进行标点,而我只能对我自己所能掌握的领域的古文进行标点。它没有人的情绪波动,不太会犯特别低级的错误。另外它处理文献的速度更是没有任何专家学者能赶上,整个中华文明汉语古籍约有300亿字,只要配置足够性能的机器,几天时间就可以全部完成,这是难以想象的速度。虽然目前人工智能在古籍自动标点等方面还远远达不到完美,但确实对我们做古籍整理已经能够有很大的帮助了。
澎湃新闻:人文学科学者尝试将新的计算机技术应用于传统研究,我们称之为“数字人文”,近十来年有不少成果,许多高校都有代表性的数据库。但ChatGPT与过去数字人文领域所熟悉的工具有怎样的差别?
王涛:单纯从工具的角度说,ChatGPT跟其他数字人文研究存在三点最大的不同:
首先,ChatGPT具有通用性。使用者几乎所有的需求,都可以在ChatGPT上实现。传统的数字人文工具,基本上有特定的用途,比如要做自然语言处理,可以使用Voyant;查找资料,需要使用搜索引擎,或者专业数据库;编写程序,需要使用Python编辑器。但这些工作,都可以在ChatGPT的平台上完成。可以说,ChatGPT是一个全能型的助理,能够为人类用户提供一站式的解决方案。
其次,ChatGPT的使用门槛很低,使用者只需要会用电脑打字就足够驾驭。传统的数字人文工具,都有比较高的学习成本。使用者需要对特定工具的术语、概念、适用范围有一定了解,还需要花时间去熟悉工具的界面、命令等,才能够获得比较有效的结果。ChatGPT最厉害的一点就在于,它没有对用户设置任何障碍,只要会识字,就能够用起来。(目前ChatGPT的人机交互,只能通过文本输入输出进行。也许,将来更智能的AI助理,可以支持语音输入输出。)这很可能是ChatGPT能够在众多人工智能竞品中率先脱颖而出的重要原因。
第三,ChatGPT给出的结果简洁而干脆,符合用户“只想找答案”的心态。正是由于ChatGPT基于任务导向的产品设计理念,它非常了解用户的预期。对于用户的任务指令,ChatGPT的反馈都是唯一的答案,没有提供其他选项。这既提高了效率,也在某种程度上提升了ChatGPT的“权威性”。
当然,这很可能跟ChatGPT本身的知识边界相关。我看到网上有人尝试让ChatGPT重复回答同一个问题,结果若干次之后的答案基本上就是在说车轱辘话,说明ChatGPT的知识体系非常有限。升级版的ChatGPT在新必应的加持下,将会对反馈的结果加入信息来源,也提供了更多选项。这或许是为了平衡。但是,跟传统的关键词搜索相比,其反馈动辄上万条网页结果,ChatGPT简直就是一个知识的霸道总裁。
澎湃新闻:在我印象中,数字人文工具大部分是做数据呈现、检索以及量化结构分析,相较而言,类似ChatGPT这样基于神经网络的人工智能,是否可以说是革命性的技术?
杨浩:是的,数字人文在过去常常是做量化分析,采用各种统计的方法,并对统计结果予以可视化与分析。比如,语言学领域有计算语言学,用统计的方法研究语言学,历史学领域有计量史学,这些都是很早就在发展的学科。但数字人文在近年来的热潮应该是受到人工智能的推动,与此前不同,可以说是数字人文+人工智能。
传统的人文学者,通常是对特别少量的文本进行深度挖掘。之前古籍文本数据库的出现实际上已经逐渐在改变传统的人文学科研究方式。人工智能出现以后,在我看来,可能会有巨大的、革命性的改变。以传统的古典文献学为例,光是标点一部典籍就是一项极为繁重的任务,可能需要耗费一位学者几个月、甚至几年的光阴,但计算机现在可以瞬间完成。虽然会有一些错误,但是对一般的理解来说够用了。不难预料,基于神经网络的人工智能,在不久的未来,一定会对传统的人文学科产生一些冲击。
陈诗沛:我觉得是革命性的。语言模型的专长是把不同的资料片段集合在一起,如果我们使用这样的模型,大量“投喂”历史研究的论文,当我们再问一些基础的历史问题比如“为什么中国没有发生工业革命”,它能很快从现有的研究中整合出回答,这是可以实现的。现在一般的数字人文工具没有到这个程度。
但是,语言模型里并没有真正的智能,它不能辨识语义,只是一种很好的拼凑和堆砌。我们需要知道这些内容里可能有错误,这非常重要。那谁去判断里面有没有错误呢?就是真正的人类,知识到达一定水平的人类。
人工智能+数字人文
澎湃新闻:除了ChatGPT,还有哪些人工智能技术已经应用在数字人文工具中?
王宏甦:有很多,比如我们训练 通过文章的标题(比如《报任少卿书》)来判断这篇文章是不是一封书信。这个模型是为了满足“ ”这个子项目的需求而训练。我们需要在120万个来自明人文集的文章标题中过滤出所有书信标题,并对这些标题进行进一步数据挖掘。在“明代书信计划”的简介页面中可以看到,我们当前已经把 54391 个经过初步数据挖掘的明代书信信息导入到任何人都可以访问且免费注册、下载全部数据的 。
再比如几年前我们训练 BERT + LSTM 神经网络模型,用来识别中国古代地方志中的人名、地名、官名等信息。
以上这些神经网络的预训练模型我们都做了开放下载,任何人都可以直接下载免费使用。
训练 transformer 神经模型通过文章的标题判断是不是书信,Labels1是书信,0 是非书信
澎湃新闻:CBDB最新发布的“韩文(谚文)人名转罗马字神经网络预训练模型(Kraft)”是否同为机器学习的应用?
王宏甦:是的,现在能见到的人名谚文-罗马字生成工具大多基于专家规则。这些规则本身非常复杂,你可以直接打开 看到,总共有 16 页的规范。另外,谚文罗马字的标准也有好几套。我们的“Kraft”在来自韩国的教授、同事、同学、学者的帮助下,建立了一万多条训练集数据,通过这个训练集,不用书写任何规则,就能训练出神经网络模型将谚文转成拼音。未来如果我们希望训练其他标准的谚文-罗马字转换规范,只要做一批训练集即可。在今年三月份哈佛的国际会议 上,我们将会介绍这项工作。
澎湃新闻:杨浩老师主要致力于将人工智能的方法运用于中国古代典籍的整理与研究,能否谈谈最新的进展?
杨浩:人工智能技术在古籍方面的运用,目前主要是将自然语言处理技术用于自动标点、命名实体识别、命名实体消歧、命名实体链接、相似文本的判定等方面,以及将属于计算机视觉领域的OCR文字识别(光学字符识别)用于古籍图像的文字识别上。我们现在基于预训练模型在做一些相似文本的判定方面的探索,效果比之前好很多。希望未来能够基于更多语料,建立更广与更深的文本与文本之间的关系,切实地成为人文学者可资利用的工具。
例如北大数字人文中心在王军教授带领下正在开发的“吾与点”古籍智能处理系统与“识典古籍”整理平台,是人工智能方法在古籍数字化方面的集中应用。
古籍整理平台涉及的工作流程是:上传图片、OCR识别(光学字符识别)、文字校对、文字校勘,自动标点、自动分段、结构整理,标点校对,命名实体校对。其中古籍OCR、自动标点、自动分段、命名实体校对应用的是人工智能,结构整理用的是传统计算机方法,文字校对文字校勘则依赖人机交互,即计算机校对校勘、人工审阅。
自动标点、自动分段、命名实体校对是基于预训练语言模型的,准确率都比较高。以自动分词功能为例,古文分词很难,没有预训练语言模型之前,对古文的分词基本上不可靠,现在我们用人工智能的方法使得传统的搜索变得更加智能,基于词频的统计分析也更加精确。
“吾与点”古籍智能处理系统的自动分词功能
“吾与点”古籍智能处理系统的专名识别功能
北京大学与字节跳动联合实验室建设的“识典古籍”这个项目,是希望通过人机协作的方式,利用人工智能方法,在OCR、自动标点、命名实体识别等技术之外,还能够进一步实现古籍的自动注音、自动释义、自动翻译等,建立起来一个文字精良、功能丰富、阅读体验优秀的古籍阅读平台。北大数字人文中心的其他项目还有“国家珍贵古籍名录”、《永乐大典》高清影像数据库等等,主要是采用数字人文的可视化方法。
澎湃新闻:陈诗沛老师在马克斯·普朗克科学史研究所负责地方志研究工具LoGaRT(Local Gazetteers Research Tools)的研发工作,您曾提到想把机器学习的方法应用于古籍影像扫描,能否谈谈相关的设想或实验?
陈诗沛:我们的人工智能主要应用在古籍图像上。地方志里有一些图像,如地图、山水建筑、星象天文图等,晚清民国时期还有人物或风景的照片。在古籍扫描的基础上,我们使用机器学习对这些影像进行分类。很多古籍已经扫描成影像,人工智能会把它简化,同时根据过去人工标注的结果,辨认该影像是文档、地图或是照片,并且继续按照这个方法去深度学习。这个机制其实和ChatGPT很像,它根据概率选择可能性最大的一项。其实这个算法本身已经很成熟,只是应用于古籍图像还很少。
澎湃新闻:目前的量化历史研究、数字人文研究中,数据库主要还是服务于学者的工具。未来的数据库是否有可能实现自主学习、自主分析数据的功能,甚至最终懂得对数据自主发问,进而压缩质性研究的空间?
陈诗沛:我觉得不会。无论量化还是定性研究,面对工具,人还是在主宰的位置。我会用ChatGPT搜集材料,但最后可以下结论的一定是我,而不是机器。
王宏甦:我们一直致力于用一切方法来研究历史,在这几年的实践中,定量研究帮助我们发现了很多有助于定性研究的问题,定性研究的成果也帮助着我们建设数据和设计研究方法。这是我们项目主任、哈佛大学东亚系包弼德(Peter K. Bol)教授的新书 Localizing Learning: The Literati Enterprise in Wuzhou, 1100–1600 ,在这本地方史(浙江婺州)的研究著作中,可以看到许多利用“中国历代人物传记资料库”数据做定量和定性分析的例子。
包弼德著,《学习在地化:婺州的文人事业(1100-1600)》,哈佛大学出版社,2022年5月
历史学的科技未来?
澎湃新闻:王宏甦老师提到,目前在人文的问题上很少使用ChatGPT,显然它的人文知识不够准确。不过,有没有可能在足够的语料库训练之后,它也能胜任人文问题的解答?换句话说,历史学家需要担心被人工智能替代吗?
王宏甦:未来的神经网络模型一定能在人文问题上表现得更好,特别是百科类和有明确答案的问题。
历史学家本身我认为不会被人工智能替代。首先从狭义的角度看,有些问题需要一则或者几则史料作为钥匙。比如某个文化在某个时期有没有迁徙到某个地区。这需要由例如通过考古发掘发现的新“事实材料”给出答案。第二,从更宏观的角度。在一些历史问题的价值是促进历史学家的思考和研究,提出自己的(没有标准答案的)想法。比如李约瑟问题、唐宋变革问题等等。对这些问题的探讨不仅有助于历史学家理解历史,也有助于理解当下。如果只是对这些问题做一个历史考卷论述题式的回答,那就太浪费这些问题了。做一个比喻,刀叉没有替代筷子,或者筷子没有替代刀叉并不意味着某种对抗的结果。用刀叉吃炒饭和用筷子割肉一样不方便,它们各自有各自胜任的场景。
澎湃新闻:人工智能可能给传统人文学科带来怎样的机会或者挑战?学者应该如何应对、应用这样的技术?
杨浩:我认为文史哲这些传统的人文学科需要做出一些改变和适应。历史上新技术的发明总是会对某些职业带来冲击,人工智能是会对人文学科带来挑战的,尽管短时间内不明显。
首先,对于一些程式化的工作、量化的研究来说,人工智能显然是很有力的工具。王宏甦老师把ChatGPT当作同事,王涛老师用它来写会议通知,它还可以做简单的文献综述、文本摘要等。其他很多功能还可以探索,人机交互会让它变得越来越好用。
此外,它在一定意义上可以作为一种搜索工具。王宏甦老师提到的朝鲜官职是非常专业的问题,但是我觉得“大路货”的问题它还是可以回答。我问ChatGPT:《社会契约论》的主要内容是什么?它就对这本名著做了一个简单的摘要。当然我们要警惕其中有错误的内容。就目前来说,它是很有用的工具,未来类似的大语言模型还是很有发展空间的。
ChatGPT回答《社会契约论》的主要内容,受访者供图
在教学方面,之前看到网络上有人说,有学生用ChatGPT写出了关于世界宗教的小论文,获得了高分。这是可能的。本科生的作业,如果只要求对本学期讲述的内容做简单的综合,不需要有创见,ChatGPT可以做得很好。这样以后学生是不是就会偷懒、作弊呢?这种担忧是存在的,但是也不必过于担忧。就像数据库刚出现的时候也有人担心,学生会不会从此不读书了?但是数据库根本无法取代人文学者对材料的分析综合和鉴别能力。当大家都用数据库的时候,工具以外的知识与能力才能决定你是否能成为一位好的研究者。反过来说,完全“掉书袋”的研究方法,未来可能会失去市场。
目前的ChatGPT,甚至未来的ChatGPT,如果它仍不具有常识,是不可能取代人文学者的。我认为只有实现真正的通用人工智能,未来才有可能谈得上“取代”,但那时候应该是整个人类都要陷入危机了。
至于对于技术的态度,人文学者显然不应该拒斥这样的技术,反而应该积极了解人工智能到底是怎么一回事。大数据、人工智能技术正在逐渐改变人文研究的范式,机器可以协助处理社会、历史、文化等各方面的语料,呈现新的结果,带来新问题和新思考。当然这个改变过程可能是缓慢的。
人文学者应该积极参与和了解技术,因为技术也需要人文精神的引领。北大人工智能研究院朱松纯老师有一句话叫“为机器立心”。未来通用人工智能的发展无法预料,人工智能会不会是“人类发明的最后一项技术”?技术会不会奴役人类?为人工智能立法、建立伦理、设立边界,也是需要人文学者参与的。韩启德院士曾经打比方,技术发展就像一辆没有司机但却在加速行驶中的汽车,人文学者首先要在车上,然后才有可能逐渐去掌握方向盘。人文和技术绝不是矛盾的。
王涛:历史学者需要利用ChatGPT,而不是被ChatGPT利用。历史学者在研究工作中要有非常明确的问题导向,可以直接向ChatGPT提出需求,让它根据算法给出一个反馈。至于这个结果是否有效,是否能够用于研究,还是需要历史学者做专业的判断。我对ChatGPT的历史问答做过测评,对某些问题,ChatGPT给出的答案其实非常普通,评价为一本正经地“胡说八道”也并不为过;即便如此,ChatGPT却能够用非常自信的口吻表达出来。从目前的表现来看,ChatGPT其实是一个“普信AI”,人类用户不用过于悲观,毕竟拔掉电源的主动权还在人类这边。
第二,人工智能的进化也逃不过巧妇难为无米之炊的窘境。我们可以预见在不久的将来,在ChatGPT普及之后,历史学者都用它来进行知识生产,互联网上将充斥着主要由人工智能完成的历史内容。ChatGPT如果还继续用这样的素材来进行训练、进化,那人工智能的发展很快就会进入瓶颈。所以,人类历史学家的工作很难被取代,否则ChatGPT拿不到新鲜的训练集,只能吃老本,这样的“内卷”对历史研究,对人工智能都将毫无意义。
最后,在人工智能日趋成熟的当下,破解“信息茧房”显得更加迫切了。如果我们尽信ChatGPT的结果,没有能力识破它是否在一本正经地胡说八道,这将是很悲哀的事情。科幻剧《疑犯追踪》曾讲了一个故事,男主角在互联网上查询任何信息,都会出现跟抑郁症、自杀等内容相关,结果在这样的信息熏陶下,他也选择了自杀。看似毫无破绽的自杀案件,其实是一场精心策划的谋杀案。原来,男主角的仇人买凶杀人,杀手利用人工智能控制了男主角的电脑,定向给他推送自杀的消息。在这个寓言般的故事中,人工智能其实没有好坏,用它的人才是。所以,如果我们对“信息茧房”毫无戒心,把ChatGPT的结果当全部真相,不仅可能要钱,还有可能要命。
澎湃新闻:王涛老师在社交网络上分享了ChatGPT是如何回答“鸦片战争爆发的原因”这个问题的。从教学方面来看,您认为ChatGPT有能力完成历史学专业的作业和论文吗?老师们是否考虑过如何应对?
王涛:这是一个非正式的实验。我出了一道非常基础的历史问题,让ChatGPT去解释一下鸦片战争爆发的原因,然后把ChatGPT生成的答案,拿给一些历史学者评分。坦率地讲,ChatGPT的答案像模像样,有思路,有逻辑,也能够从多种角度作答。历史学者们对ChatGPT答案的评价参差不齐。当然,之所以会出现这种局面有一个很重要的外在因素,历史学者事先知道这个答案是人工智能生成的,他们主观上已经对此有了先入为主的判断,所以会对评价的客观性带来影响。
ChatGPT回答“鸦片战争爆发的原因”,受访者供图
从教学的方面看,让ChatGPT独立完成一篇具有原创性结论的历史学专业论文,目前看还不可能。因为,ChatGPT本质上是一个语言模型,它所有知识来源都是基于已有和已知的信息。只是基于强大的算力,让ChatGPT能够快速定位,再加上算法,把知识关联起来,并能使用逻辑通顺的自然语言导出结果,才让ChatGPT看起来很智能。
ChatGPT擅长的其实是对知识的整合,在文字处理上,让它完成公务文章或者应用文,是信手拈来的事情,因为这种类型的文章具有极强的范式。让ChatGPT去完成一篇历史作业,对知识进行梳理和总结,对它而言也是正中下怀。对ChatGPT稍加调教,投喂足够多的八股文数据,它在竞争激烈的科举考试中拔得头筹,应该也是毫无压力。
我看到《连线》网站上发布的一个新闻,一名英语老师对ChatGPT布置了不同类型的写作任务,从打油诗、剧本到十四行诗,ChatGPT都能应对自如,并以极高的效率完成,多项作业取得了不俗的成绩。
但是,老师不应该过分担心ChatGPT对教学的冲击。老师们能够调教出像ChatGPT这样的孩子,在业务考试中取得优异成绩的学生固然值得庆幸,但是如果所有的学生都像ChatGPT那样,只会掉书袋,也是一种悲哀。
老师们的担忧可能是,学生们有了类似ChatGPT这样人工智能的协助,考试作弊,不认真学习,会破坏教学秩序。这个问题,需要从老师如何教,以及学生如何学两个方面解决。
在人工智能技术日趋完善的将来,老师的教学不能仅仅追求知识的灌输,而是要教会学生自我成长的方法。在ChatGPT可以在掌握知识的准确度上碾压人类的背景下,“授之以鱼不如授之以渔”显得更加重要了。
对学生而言,死记硬背的方式学习知识,显然已经不能满足未来社会的需求了。在记忆这个技能上,没有人能够比得过ChatGPT。学生们需要掌握的技能是要善于提出问题,并且能够使用包括ChatGPT在内的工具找出解决方案。
澎湃新闻:以一个历史学者的眼光,您认为人工智能会给史学这门古老的学问带来怎样的影响?
王涛:ChatGPT的历史知识是有来源的,它之所以显得智能,就在于它能够在数据库中定位到相关的历史结论。而这些知识体系,是由一代一代人类历史学者通过脑力研究得出的成果。
所以,从比较和谐的角度来说,以ChatGPT为代表的人工智能技术对历史学科的发展有积极推动作用,关键在于专业的历史学家是否能够用好这个助理。
历史学家的长处,从来不是过目不忘,而是善于在不同史料中穿行,找出符合历史语境的解释与判断。而历史学家不擅长的地方,正是对ChatGPT等人工智能工具而言最普通的技能,所以两者的合作对双方都是扬长避短,有机会达到双赢的局面。
在前数字化时代,历史学者非常重视阅读笔记的作用,因为即便有博闻强识的大学问家,大多数人的情况是好记性不如烂笔头。学者们需要通过笔记对史料进行体系化构建,从而给研究提供思路和线索,特别是在书写研究论文的时候,根据学术规范的要求对史料来源进行注释才能够从容不迫。
我在ChatGPT上做过实验,丢给ChatGPT一个问题,用符合美国现代语言协会制定的论文格式(MLA),规范地引用“知识就是力量”这句话。ChatGPT精准地给出了作者、书名、出版年份等信息,独缺页码信息。我追问了一下,为什么没有页码,ChatGPT回答,在培根生活的16世纪,出版的图书还没有出现规范的页码格式。ChatGPT还特别贴心地提醒我,培根的作品被很多文集再版了,那里可以找到页码信息。
澎湃新闻:杨浩老师是北大哲学系的博士,跨界到技术领域从事数字人文的工作。您怎么看技术给人文学科带来的改变?要跨越不同学科间的壁垒,关键在哪里?
杨浩:带来的改变我认为大致有三个方面。第一在方法上,数字人文是量化的方法,对传统的质性研究是很重要的补充。第二是在视角上,逆转了传统人文学科研究那种越来越细分、越来越专门的趋势,整合碎片化的知识生产,带来大尺度、大跨度的视角。第三在文献上,可以提供全量文献基础上的研究与分析。真正的大数据含义,是趋向于无穷大的数据;全部中文古籍总量也就300亿字,永远不再增长,其实是“小数据”,是有极限的。数字人文的方法在理论上可以实现全量文献基础上的研究,这是过去不可能做到的。
打破不同学科之间的学术壁垒需要一些顶层设计,在教育的层面鼓励交叉学科的实践、跨学科人才的培养。作为个体,无论是文是理,有这样一些内容是需要主动学习的:通识教育、经典教育、对技术的掌握和自学的能力。通识的重要性毋庸多言,通用人工智能之所以惊人,也正是因为“通”。而掌握传统人文知识,最好的途径就是经典教育,未来的人工智能如果要理解人,也要学习经典。现在这个时代,无论文理都需要掌握技术,技术就是一门语言,一种生存技能。最后,我个人最大的体会还是自学能力,善于自学才能突破边界。技术日新月异,各种新思想也不断涌现,没有主动学习的能力,肯定不行。
人工智能让我们反思人的本质,“人是什么”。人类做机械的、重复的工作的能力,并不比机器弱。所以人工智能会淘汰平庸的抄袭者,完全没有创造力的工作一定会被人工智能取代。
澎湃新闻:陈诗沛老师所在的德国柏林马克斯·普朗克科学史研究所是一个很有代表性的跨学科研究机构,科学史本身有学科交叉的性质,马普所又倡导“历史学家和计算机科学家同桌思考”。陈老师是计算机系的博士,您是怎么与历史结缘的?以您的个人经验而言,如何使两个来自不同领域的人沟通得更顺畅?
陈诗沛:我在台湾大学计算机工程系的导师是项洁老师,他是数字人文最早的倡导者和实践者之一。当时他被任命为台大图书馆馆长,正在做历史古籍的数字化项目,我和系里的很多硕士生、博士生一样,参与了这些项目。
我的确觉得计算机和历史学这两个领域之间的壁垒很高,难以跨越。这也解释了为什么很少计算机科学家投入数字人文。我当初并不是一个好的计算机科学家,因为我喜欢跟人讲话,不喜欢跟机器讲话。但由于我了解一些计算机的基础概念,我就试着把它们解释给历史学家、人文学家。在这两个领域里,大家使用的语言和思考方式不同。一个计算机科学家可能不理解一个历史学家提出的问题有什么意思,做出来的东西不见得符合历史学的需求。
我觉得我花了很长时间才真正进入人文学科,直到最近几年才觉得自己被历史学家们接纳,他们开始认可我提出的问题是人文学者的问题。而我真正理解他们在做的事情,是通过阅读历史学、科学史方面的论文,以及参与他们的讨论。我所接触的历史学者们,主要的学术活动是报告论文,他们会把论文初稿拿出来和大家切磋讨论,得到反馈后再修改、发表。我参与这样的报告和讨论三四年以后,才逐渐感觉能够理解他们在意的问题、他们的需求、他们做研究的本质,以及他们所追求的到底是什么。
身在数字人文这个领域,我的确有一个信念,就是这些数字工具可以为历史研究提供很好的服务,做出以往不容易做到的事情。但我们需要保持警醒,数据本身是不客观的,尤其是历史上的数据,因为有太多信息已经遗失。所以我们不会完全相信它。我们解释这些数据背后代表什么意思,保持对历史文档本身的怀疑,保持对历史的怀疑。因为每一个文档都不是客观的。
回到你前面的问题,历史学的训练到底是什么?我经过和许多历史学家的合作,深深体会到的就是,历史文档不是客观的,每个文档产生的背景都不一样,很多东西没有被写下来,只有去重构文档生成的过程,才能做出相对客观的判断。