「ChatGPT 之父」奥特曼最新访谈：中国将拥有独特的大语言模型

作者：AppSo发布时间：2024-06-23

编译：无忌文章来源：腾讯科技

在近日在瑞士举行的 2024 年的人工智能向善全球峰会（AI for Good Global Summit）上，OpenAI 首席执行官山姆·奥特曼（Sam Altman）通过视频连线，与《大西洋月刊》的 CEO 尼古拉斯·汤普森（Nicholas Thompson）展开了深入的交流。该峰会由联合国国际电信联盟发起。

这场对话不仅触及了人工智能技术的前沿发展，更深入探讨了人工智能对全球社会、经济以及文化格局的深远影响。

在全球化的浪潮中，人工智能作为一项革命性技术，其发展速度和影响力前所未有。奥特曼在对话中特别提到，中国将在这个领域扮演重要角色，孕育出具有本土特色的大语言模型。这一预见不仅彰显了中国在全球人工智能领域中日益增长的影响力，也预示着未来技术发展的多元化趋势。

奥特曼预计，在未来将有 10 到 20 个大语言模型在全球范围内「存活」并发挥重要作用。这些模型将成为推动各行各业发展的关键力量，同时也将引发对技术伦理、数据安全和国际合作的全新思考。奥特曼的洞察提醒我们，面对人工智能技术的快速发展，我们需要建立一个更加包容和协作的全球治理体系，确保技术进步能够惠及全人类，而不是成为新的分化力量。

太长不看版：

奥特曼认为 AI 在提升生产力方面已显现积极作用，但网络安全等问题也随之而来。

GPT-4o 能覆盖 97% 人群的母语，奥特曼承诺将持续改进，解决语言公平性问题。

面对 AI 治理的挑战，OpenAI 成立安全委员会，奥特曼强调安全与效率并重。

奥特曼预测在众多大语言模型，少数将会胜出；中国将会拥有自己独特的大语言模型。

奥特曼认为 AI 可能使人类更谦卑，促使我们重新认识自身在宇宙中的位置。

以下为此次对话的全文：

大语言模型的未来与技术伦理

主持人：非常荣幸你能够参加今天的活动。在今天的访谈中，我期望探讨多个领域，包括人工智能的现状、未来趋势、关键议题以及治理问题。让我们先设定一个背景：我们正处在一个人工智能的有趣时期，人们普遍认识到其巨大潜力，尽管它尚未彻底改变世界或我们讨论的各个领域。我的问题不是这一变革何时到来，而是想问当人工智能开始真正产生影响时，我们首先会看到哪些积极和消极的影响？

奥特曼：目前，人工智能在提升生产力方面已经产生了影响。软件开发人员是最常见的例子，也是最能说明问题的例子。人们能够以更快、更有效的方式完成工作，更多地专注于他们所喜欢的工作。随着这些工具成为工作流程的一部分，人们很快就会发现，没有它们，工作将难以想象。我预计这种模式将在更多领域出现，我们会看到各行各业因为能够利用这些工具而变得更加高效，这将对编写代码、教育、学习、医疗保健等各个方面产生积极影响。 效率的提升将是第一个明显可感知的积极成果。

至于消极影响，随着这些工具的出现，已经有一些负面效应。网络安全是我特别想提醒大家注意的问题，我认为这可能是一个相当严重的问题，不过我不确定它是否会是第一个出现的问题。

主持人：确实，这是一个极具吸引力的话题。在深入探讨这个问题的深层原因之前，我想先询问一下你正在训练的新模型。你刚刚宣布已开始开发下一代模型，无论是 GPT-5 还是其他名称。现场观众的主要担忧是，GPT-4 和其他大语言模型在英语、西班牙语和法语上的表现要优于斯瓦希里语（一种在非洲广泛使用的语言）等语言。在训练产品的下一个重大迭代时，你如何看待语言公平性的重要性？

奥特曼：我不确定这是否是一个准备好的问题，但我欣然接受。 我们对几周前发布的 GPT-4o 感到非常满意，因为它在更多种类的语言上都表现出色，我们将继续让未来的版本更加优秀。我们公布的统计数据显示，GPT-4o 能够很好地覆盖 97% 人群的母语，这确实是一个巨大的进步。公众对此表示高度认可，我们亦将持续致力于此领域的进一步改进与发展。

主持人：我们把话题转向贵公司正在研发的下一代模型的后续进展。在它进行训练的过程中，你认为我们将看到怎样程度的提升？我们是否会经历线性增长，还是会迎来指数增长的显著飞跃，或者是否会有令人震惊的指数级提升？

奥特曼：这是一个极具洞察力的问题。我们并不认为我们正处于任何指数增长的临界点。然而，这是一个在全球范围内广泛讨论的话题。对我们而言，最好的策略是展示成果而非仅仅预言。众多人士正在提出各种预测，而我们的策略是致力于进行尽可能深入的研究，并随后决定如何负责任地发布我们所能创造的成果。我预期在某些领域将实现巨大的进步，在其他一些领域可能提升并不如预期显著，这与我们之前每次模型更新时的情况相似。当我们从 3.0 版本升级到 3.5 版本，再到 4.0 版本时，关于是否真的会有显著改进，将在哪些方面改进，都存在许多讨论。 答案似乎是，我们仍然有很大的发展空间，我预计我们会在一些人们未曾预料到的领域取得进展。

人工智能的可解释性与安全性

主持人：现在网络中充斥着大量由其他大语言模型生成的合成数据，而这将是 OpenAI 首次在很大程度上使用合成数据来训练模型。你对使用这些由大语言模型创建的数据来训练大语言模型，可能引发的系统出错问题有多担忧？

奥特曼：我认为关键在于获取高质量的数据。无论是合成数据还是人类生成的数据，都存在质量良莠不齐的问题。只要我们能够收集到足够高质量的数据来训练模型，或者能够开发出提高数据效率的方法，从较少的数据量中学习更多，或者采用其他各种技术手段，我认为这个问题是可以解决的。我们有信心，我们拥有为开发下一代模型所需的一切资源。

主持人：OpenAI 是否为了训练模型而创建了大量的合成数据？OpenAI 是否自行生成了用于训练的数据？

奥特曼：我们自然已经进行了各种实验，包括大量生成合成数据。我期望的是，如果训练模型的最佳途径仅仅是创造数以万亿计的合成数据 Tokens 并将其重新输入系统，那显得非常不合常理。你可能会认为，这种方法在某种程度上显得效率不高，应该存在一种机制，让模型在训练过程中能够更有效地从数据中学习。我认为我们还有许多问题需要解决，但当然，我们已经生成了大量合成数据，用以进行训练方面的实验。然而，我认为你提问的核心是如何实现用更少的数据获得更多的学习成果。

主持人：这确实引人入胜，我之前并不知情。让我们探讨一个关键议题，我认为这将决定这些技术如何在世界范围内应用。去年，我有幸与 Stripe 的创始人帕特里克·科里森（Patrick Collison）进行了一次精彩的对话。他当时提出了一个深刻的问题：在人工智能领域，如果有某些变化，是否会让人类对人工智能可能给世界带来的巨大负面影响的担忧大为减少？

你曾经说，如果我们能够深入理解背后真正发生的事情、能够洞察单个神经元的活动，就像你希望人工智能模型能够传授某人化学知识，但不希望它教授如何制造化学武器一样，你期望这种控制能力是内嵌在模型的核心，而不仅仅是界面层。这样的理解是否正确？这个问题是否已经得到解决？

奥特曼：我认为，确保安全性需要一种全面的方法，而模型的可解释性显然是一个值得探究的领域，它可能在多个层面上发挥作用。尽管我们尚未解决可解释性问题，但我对正在发生的许多事情感到非常兴奋，尽管这还没有达到我可以宣布「大家可以放心，我们已经完全理解了」的地步。在我看来，我们对这些模型内部运作的理解越深入，我们就越能做出更好的决策。我相信，这可以成为我们构建和验证安全性声明的综合性方案的一部分。

主持人：如果你不完全理解正在发生的事情，这是否成为不继续推出更新、更强大模型的理由？

奥特曼：尽管我们无法在单个神经元层面上完全理解大脑的运作，但我们确信它能够遵循规则。除了在神经元层面的深入理解之外，还有许多其他方式可以帮助我们理解整个系统。这些系统的特质和行为已经被非常精确地界定。事实上，包括我自己在内的许多领域内的专家都对这一点感到惊讶：