人工智能的进步,特别是大语言模型(LLM)正在对社会科学研究产生重大影响。机器学习模型在大量文本数据的基础上进行预训练,能够模仿人类的反应和行为,为有关人类行为的理论和假设提供了大规模、快速检验的机会。同时也带来了挑战:如何调整甚至重塑社会科学研究实践,从而利用基础人工智能的力量?如何同时确保研究的透明性和可复制性?
社会科学的研究方法包括调查问卷、行为测试、半结构化的混合方法分析、多主体建模(ABM)、观察性研究和实验等,其目标是获得个体、群体、文化及其互动的概括性表征。随着人工智能的出现,社会科学数据收集形式将会发生变化。大模型可以利用深度学习捕捉语言中的复杂关系,这种通过上下文感知的方式,准确处理、生成人类语言,并能与人类进行自然互动的能力,代表了人工智能方法的重大转变。以往的人工智能方法往往难以处理语言中的细微差别,如讽刺、隐喻和情感等。而通过适当的调节,大语言模型可以在社会科学研究中更准确地模拟人类行为反应。
大语言模型可以在数据收集中代替人类被试。例如,大语言模型已经展示了它们在消费者行为调查中,生成逼真回答的能力。尽管人们对这一应用的可行性众说纷纭,但至少,使用模拟被试的研究可以用于生成新的假设,该假设可以进一步通过人类被试得到证实。这种方法的成功取决于训练数据的算法保真度、训练模型的透明度、及时的工程设计和基准选择。
为什么这个设想是合理的?先进的人工智能模型通过在大规模数据集上的预训练,可以代表大量的人类经验和观点。与传统方法相比,它们有更大的自由度来产生不同的答案,有助于减少相关研究中的普遍性问题。由于人类存在注意力有限、反应偏差或者习惯化等问题,大语言模型可以在更广泛的参数范围内生成反应,对潜在维度提供偏差较小的视角。这使得大语言模型在传统数据收集方式不可行的高风险项目中占据优势,可以在正式实施前先在模拟人群中测试干预措施。
大语言模型还可以用于其他方面,通过重现不同的理论视角或者思想流派的观点来促进政策分析。例如,可以训练大语言模型捕捉复杂辩论中的细微差别。可以对大语言模型进行培训,以捕捉不同的视角,包括评估险些发生的“假设”(what-if)情景,并对这些情景的可信度进行评估。一旦大语言模型通过意识形态图灵测试,就意味着它们能以与真人无差别的方式准确表达对立观点,研究人员可以用它们来模拟生成未来的情景。因此,未来大语言模型经过适当的训练后,可能在分析任务上超过人类,如综合相互冲突的观点,以进行更好的预测并提出政策建议。
在涉及个体或群体的社会互动研究中,人工智能还可以模拟扮演同盟角色(例如假被试)。大语言模型—多主体建模(LLM-ABM)可以推导出基于经验的社会决策或者行为规则,从而模拟具有特定特征和信仰的个体的社会互动。这种方法可以探索某些特定的特征如何影响人类的互动,为更广泛的社会科学问题提供信息,例如研究虚假信息是如何通过社交网络进行扩散的。
这些研究提出了大语言模型作为人类认知和决策模型的局限性问题。我们能否通过要求大语言模型与人类分享和复制研究之前评估新闻的质量来“助推”大语言模型?如果可以,是否能够利用LLM-ABM来确定干预措施,从而减少错误信息在社交网络的传播?一般来说,如果LLM-ABM能够在人类行为者如何选择分享信息、如何在社会困境中合作和竞争以及如何遵守社会规范方面提供新见解,那么它们就能形成具有更高保真度的决策模型,为人类行为和社会动态的基本机制提供有价值的见解。
由于运行原理不同,将大语言模型纳入多主体建模会带来新的挑战。大语言模型根据大量语言数据的统计模式来生成和解释语言,而传统的多主体建模则根据预定义的形式规则运行,这些规则可以通过使用现实世界的语言数据和其他定性数据生成。新的多主体建模设计需要利用大语言模型的能力来模拟问卷调查的表现、不确定情况下的行为或开放式回答。通过为多主体建模创建真实的初始人群,大语言模型可以模拟被试潜在的认知或情感状态,这超越了传统研究人员的能力,为未来理论的生成打开了大门。
大语言模型的未来潜在优势包括创建多类型的样本,并且能够对人类行为和社会动态提供更准确的描述。基于人口规模的校准数据,大模型可以帮助解决社会科学研究中可能导致模型偏差的常见问题,包括普遍性和自我选择问题。
人工智能辅助研究的有效性取决于人工智能是否能精确地反映不同群体的观点。众所周知,来自语言文化产品的预训练模型可以捕捉社会文化偏见。当偏见被识别时,一个关键问题就是偏见的来源:是准确地反映了人们的思想观念,还是模型构建出来的产物?模型构建偏差是由于在整个设计和开发过程中做出了不正确或者无效的选择(例如,选择在不同人口群体中有效性不同的结构,管理缺乏多样性或包含某些人类注释者偏见的数据集,或选择未能捕捉到少数群体特征的模型),还是由于现有的社会差异造成的。
科学家—人道主义者困境(scientist-humanist dilemma)已成为一个关键问题:尽管科学家的目标是研究嵌入社会文化偏见的“纯粹的”大语言模型以模仿人类行为并追踪其文化演变,但伦理约束要求工程师保护大语言模型不受各种偏见的影响。目前,大语言模型工程师已经对预训练模型进行微调,努力在人工智能训练中减少偏见,这可能会逐渐削弱人工智能辅助社会科学研究的有效性。大语言模型训练本身的“黑箱”性质对研究者评估潜在机制和重复研究的能力提出了挑战。为解决这一问题,提倡开源大语言模型,预训练而非微调的科学研究模型以及透明的方法(例如,BLOOM,Cerebras-GPT)对确保可靠可信的人工智能驱动的研究至关重要。
总体来说,研究人员需要制定在研究中使用大语言模型的伦理准则,解决与数据隐私、算法公平性、环境成本以及生成的研究结果可能被滥用有关的问题。数据质量、公平性和平等使用人工智能系统至关重要。
在决定是否使用大语言模型来模拟人类行为时,研究人员必须首先验证以语言为中介的潜在建构。他们可以将大语言模型生成的反应视为非人类被试的“样本”并系统地改变提示,就像在传统实验中呈现随机刺激一样。使用大语言模型进行再搜索的一个重要考虑因素是外部有效性和内部有效性之间的权衡。未来的大语言模型经过不同文化内容的训练之后,将通过模拟人类的反应并推广到真实世界的场景中,从而提供更高的外部有效性。然而,其不透明性将限制内部有效性。相反,由实验室在较小受控数据集上建立的自然语言处理模型将提供更强的内部有效性,但其代价是可靠性和泛化能力的降低。在不同的环境下,这些方法都能发挥重要作用,研究人员可以根据自己的优先级,谨慎选择这些方法。
研究人员还必须考虑研究的内容,涉及暴力的高风险情境或需要大量人类参与但明显不可行的情境可能更适合大语言模型。例如,大语言模型可用于探索太空旅行中的人类互动。
随着人工智能重塑了社会科学的格局,研究人员的职业也将多样化,他们将扮演新的角色,如模型偏差猎手、人工智能数据验证者或者人机互动者。在这种情况下,保持概念的清晰性、理解测量的基础以及坚持以理论为基础的实践,选择适合自己研究问题的人工智能辅助设计至关重要。
正如柏拉图洞穴寓言中的囚犯观察墙上的影子并相信它们代表现实一样,大语言模型也依赖于人类在文化产品中所描述的经验的“影子”。由于在文化产品中捕获的大众心理学可能并不总是反映出支配人类行为的机制——这是社会科学家必须承认的一个限制,因此这些“影子”为其所代表的现象的本质提供了一个有限的视角。研究大语言模型的局限性和偏差也是许多领域的常见做法。
尽管存在这些障碍,但大语言模型允许社会科学家打破传统的搜索方法,以创新的方式开展工作。大语言模型很可能会导致线上众包平台的衰落,此类平台是许多社会科学领域(人类被试)调查数据的主要来源。原因很简单,一是简单任务的表现不相上下,二是大语言模型引导的机器人的开放式回答与人类参与难以区分,这就需要新的人类数据验证方法。社会科学家必须做好准备,适应不断发展的技术所带来的不确定性,同时要注意到现有研究实践的局限性。只有保持透明度和可复制性,才能确保人工智能辅助的社会科学研究真正有助于我们对人类经验的理解。
免责声明:本文转自元战略。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!
转自丨元战略
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er