一个戴着相机的婴儿教人工智能学习单词

作者：至简一卒发布时间：2024-02-03

大多数机器学习模型都依赖于大量数据来复制人类文本，但新的研究表明，学习语言的秘诀可能更简单

到大多数孩子两岁时，他们可以理解大约 300 个单词。到四岁时，平均词汇量已经膨胀到1000多个单词。我们这个物种快速获取单词的不可思议的能力还没有被完全理解。一些认知科学家和语言学家认为，人们天生就有内在的期望和逻辑约束，这使得这成为可能。然而，现在，机器学习研究表明，从最少的数据中快速获取单词含义并不需要预先编程的假设。

一个由认知和计算机科学家组成的团队已经成功地训练了一个基本的人工智能模型，仅使用61小时的自然镜头和声音即可将图像与文字相匹配 - 之前是在2013年和2014年从一个名叫山姆的孩子的角度拍摄的。这项研究于周四发表在《科学》杂志上，使用了由头戴式摄像机录制的视频和转录音频，该摄像机在山姆6至25个月大时间歇性地放置在他身上。虽然这只是孩子生活的一小部分，但它显然足以促使人工智能弄清楚某些名词的含义。

研究结果表明，语言习得的秘诀可能比以前想象的要简单。也许孩子们“不需要定制的、花哨的语言特定机制”来有效地掌握单词的含义，斯基德莫尔学院（Skidmore College）心理学副教授杰西卡·沙利文（Jessica Sullivan）说。沙利文研究语言发展，没有参与这项新研究，尽管她和其他人制作了工作中使用的视频数据集。“这是一项非常漂亮的研究，”她说，因为它提供了证据，证明来自儿童世界观的简单信息足够丰富，可以启动模式识别和单词理解。

这项新研究还表明，机器有可能像人类一样学习。大型语言模型，如 GPT-4，ChatGPT 的最新版本的 AI，是在大量数据上训练的，这些数据可能包括数十亿甚至数万亿个单词组合。该论文的主要作者、纽约大学计算认知研究员Wai Keen Vong说，人类获得的信息要少几个数量级。有了正确的数据类型，机器学习和人类学习之间的差距可以大大缩小。

该研究的资深作者、纽约大学心理学和数据科学副教授布伦登·莱克（Brenden Lake）对此表示同意。“今天的模型不需要那么多的输入来做出有意义的概括，”Lake说。“我们首次证明，你可以训练一个人工智能模型，通过一个孩子的眼睛和耳朵来学习单词。

在多次测试中，该模型正确地将许多单词与相应的图像相匹配。它也接近另外两个人工智能模型的准确性基准，这两个模型都使用更多的语言数据进行训练。在一项评估中，科学家们展示了他们的基本模型，其中包含来自训练集的四张图像，并要求它指出哪一张包含特定物体，例如球。人工智能在大约62%的时间内是准确的（比人工智能随机猜测的25%的准确率要好得多）。研究人员还用不是来自山姆记录存储库的物体的新图像测试了他们的模型，并且该模型无论如何都能够正确识别其中的许多物体，从而展示了概括它所学到的东西的能力。“我们对此感到非常惊讶，”Vong说。

然而，这项新研究所揭示的内容存在重要的局限性。首先，科学家们承认，他们的研究结果并不能证明儿童是如何习得单词的;该研究仅表明了对机器来说什么是可行的，以及对人类来说也可能是可行的。史密斯说，虽然“这是一个优雅的示范”，但这并不足以证明孩子学习语言时会发生什么。她补充说，除了简单的模式识别之外，其他因素仍然可能有助于人类学习。尽管该模型设法掌握了几十个单词，但仍有许多单词无法理解。例如，它非常擅长正确识别“沙子”和“汽车”，但在识别“手”和“房间”方面与随机相似或更差。莱克指出，这些怪癖与儿童学得最快的单词类型不一致，这表明该模型具有非人类的特质。

沙利文对此表示同意。“我是认为学习语言的问题非常复杂的人之一，如果不在脑海中内置一些特定的机制，就不可能学习一个单词的含义，”她说。但这项研究动摇了她。“现在我看到，至少在一种情况下，这是可能的。

此外，该研究仅侧重于识别物理对象的名词。人类语言学习比这复杂得多，米拉-魁北克人工智能研究所的计算语言学研究员Eva Portelance说。语言还涉及动词、结构和抽象概念，孩子们很早就从自己的经验中开始掌握这些概念。这项研究并没有证明人工智能可以对研究模型训练的有限数据做同样的事情。

尽管如此，这是朝着更深入地了解我们自己的思想迈出的一步，Portelance说，这最终可以帮助我们改善人类教育。她指出，人工智能研究不一定只是为了最大限度地提高机器人能力和企业利润;它还可以澄清关于我们自己的长期悬而未决的问题。“我们可以以一种很好的方式使用这些模型：造福科学和社会，”Portelance补充道。