AI大模型可以写诗，但不擅长数学

作者：芥末堆看教育发布时间：2024-07-24

原标题：A.I. Can Write Poetry, but It Struggles With Math

作者：Steve Lohr 来源：纽约时报编译：阿宅图源：Unsplash

人工智能聊天机器人就像学生一样，努力勤奋，孜孜以求，口齿伶俐。但奇怪的是，它们却经常在数学上遇到困难。

类似于ChatGPT这样的聊天机器人可以写诗、总结书籍摘要、回答问题，它们通常具有像人类一样的流畅性。虽然这些系统可以根据所学知识进行数学运算，但结果可能会有所不同，甚至可能是错的。这些聊天机器人经过微调，可以用于确定概率，而非进行基于规则的运算。可能性不等于准确性，而且语言比数学更灵活，标准更宽松。

美国西北大学计算机科学教授兼人工智能研究员克里斯蒂安·哈蒙德（Kristian Hammond）说：“人工智能聊天机器人在数学方面吃力，是因为它们从来不是为数学而设计的。”

看起来，世界上最聪明的计算机科学家创造的人工智能更像是文科专业的学生，而不是数字奇才。

乍一看，这与计算机的历史发展截然不同。自20世纪40年代早期计算机诞生以来，计算机一直在不知疲倦、快速、准确地计算。长期以来，计算机真正擅长的是处理棘手的数字，其表现远远优于人类。计算机遵循规则，并在结构化的数据库中检索信息。它们既强大又脆弱，因此，过去在人工智能方面的努力遇到了障碍。

然而，十多年前，这一障碍得以突破。作为底层技术的神经网络，可以松散地模拟了人脑中真实神经网络的复杂链接。这类人工智能不是按照严格的规则编程的，而是通过分析大量数据来学习。这类人工智能像人类一样，根据所吸收的所有信息生成语言，预测接下来最有可能出现的单词或短语。

“这项技术实现了很多了不起的事情，但并不意味着它是无所不能的。”哈蒙德博士说。

有时，人工智能聊天机器人会遇到简单的算术和数学单词问题，需要多个步骤才能找到解决方案，一些技术评论家最近注意到了这一点。虽然人工智能的熟练程度正在提高，但仍然有缺陷。

在最近召开的一次研讨会上，可汗学院的首席学习官克里斯汀·迪瑟博（Kristen DiCerbo）介绍了数学准确性这一主题。“正如你们许多人所了解的，这确实是一个问题。”迪瑟博说。

几个月前，可汗学院对其人工智能助手Khanmigo进行了大的调整，将许多数值问题发送到计算器程序，而不是要求人工智能解决数学问题。学生在等待计算器程序完成时，会在屏幕上看到“做数学”的字样，也会看到Khanmigo的图标在摇头。迪瑟博说：“我们实际上是在使用专门的数学工具。”

这一年多来，ChatGPT在解决一些数学问题时用了类似的解决方法。对于大数除法和乘法等任务，ChatGPT会向计算器程序寻求帮助。

OpenAI在一份声明中表示，数学是一个“需要持续研究的重要领域”。OpenAI表示，在包含数千个需要视觉感知和数学推理的问题的公共数据库上，其新版GPT达到了近64%的准确率，高于比上一版本的58%。

当人工智能聊天机器人消化了大量相关的训练数据，包括教科书、练习和标准化测试时，它们的往往表现出色。其结果是，聊天机器人之前已经看到并分析了非常相似的问题。OpenAI表示，ChatGPT技术的最新版本在高中生的SAT数学考试中得分为第89百分位。

人工智能聊天机器人在数学方面的不稳定表现为人工智能界关于该领域最佳前进方向的激烈辩论增添了亮点。大体上形成了两个阵营。

一方面，有人认为，为人工智能聊天机器人提供动力的高级神经网络，即大语言模型，是通向稳步发展并最终实现通用人工智能（AGI）的唯一途径。这是硅谷地区的主流观点。

但也人质疑，向大模型添加更多数据和计算能力是否足够。其中的代表人物是Meta首席人工智能科学家Yann LeCun。

LeCun博士说，大模型缺乏对逻辑的掌握，也缺乏常识推理。他坚称，我们需要的是一种更广泛的方法，他称之为“世界模型”（world modeling），即能够像人类一样学习世界如何运作的系统。这可能需要十年左右的时间才能实现。

与此同时，Meta正在基于其大模型LLaMA，将人工智能驱动的智能助理软件整合到其社交媒体服务中，包括Facebook、Instagram和WhatsApp。目前的模型可能有缺陷，但仍然做了很多工作。

大卫·费鲁奇（David Ferrucci）领导的团队打造了IBM著名的超级电脑“沃森”，这款电脑在2011年击败了《危险边缘》（Jeopardy）节目历史上最成功的两位选手。与大多数计算机科学家一样，费鲁奇认为最新的人工智能技术无疑令人印象深刻，但主要在于语言技能方面，而非在于准确性。他成立的初创公司Elemental Cognition开发软件，以改善金融、旅游和药物研发等领域的商业决策。Elemental Cognition将大语言模型作为一个组成部分，但也使用更多基于规则的软件。

费鲁奇博士说，这种结构化软件是目前运行世界上大部分基础系统（如银行、供应链和空中交通管制）的计算基础设施。他说：“许多重要的事情需要非常高的精确度。”

纽约高中数学老师柯克·施耐德（Kirk Schneider）表示，他认为人工智能聊天机器人对教育产生影响是不可避免的。他说，虽然学校管理人员可以禁用，但学生们仍会使用。

但施耐德先生有些不安。他说：“通常来说，这些人工智能聊天机器人表现较好，但数学方面还是不够好，数学必须准确。”

然而，这些偶尔的失误实际上是一个教学机会。施耐德经常将他的班级分成小组，聊天机器人的答案是学生讨论的焦点。将你的答案与机器人的进行对比，谁的对？你们是如何得出答案的？

“这教会学生带着批判性的眼光看待事物，并提高批判性思维。”他说，“这类似于问另一个人，这个人可能是正确的，也可能是错误的。”

对于他的学生来说，这似乎是人生一课。在学生以后甚至已经不记得勾股定理后，这堂课仍值得一直铭记：不要相信人工智能程序告诉你的一切。不要过于相信它。

课程内容：1-1课前必备168公众号工具.mp42.如何起新号，涨粉，老号转型.mp43.账号定位和精准标签.mp44.选品爆单核心技巧.mp45.在蓝气球上选爆品 .mp46.找优质素材 .mp47.剪辑优质爆品及防搬运.mp48.剪辑高清原创防搬运.mp49.剪出高级感短视频.mp410.如何避免视频同质化 .mp411.如何给视频添加边框.mp412.彩妆护肤品添加备案号.mp413.作品违规申诉.mp414.千川的优势 .mp415-1.电脑注册千川.mp415-2.手机注册千川.mp416-1.

凌零网创 2024-12-27

AI大模型可以写诗，但不擅长数学

推荐体验

相关资讯

为什么我们不擅长 CSS

百万奖金悬赏大模型不擅长的任务！这 11 个任务模型越大，效果越差！

不擅长写作的话那就看看ai写作网站有哪些吧

讯飞现场演示大模型40分钟：可语音文字转换，擅长医疗数学

写诗可以用哪些AI工具？分享3个神奇的软件！

近期资讯

4K60 4:4:4高清无缝矩阵处理器：极致画质，流畅切换，打造专业级视觉盛宴

25届中国传媒大学考研初试334&440真题汇总

为什么要长期追踪一些企业？

真题一览 | 25届全国艺术类高校戏影考研初试真题

一代人的使命

聚乳酸（PLA）的环保优势与应用领域

短视频带货千川课，从小白入门到千川投放，打造高效带货流程！

论颜值，谁比得上vivo S20 Pro？春节心动之选

饮鸩止渴的鸩是啥？

还是那么有特色！vivo S20颜值高，轻薄长续航，体验绝了

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响