鸡兔同笼都能算错的ChatGPT，陶哲轩发现了它的价值

作者：机器之心Pro发布时间：2023-03-06

ChatGPT

机器之心报道

机器之心编辑部

连三位数的混合运算都算不明白，ChatGPT 对数学家来说有用吗？

ChatGPT 不擅长数学，这是大家刚开始测试时就发现的问题。比如你问它一个「鸡兔同笼」问题，它可能写出一个看上去非常有条理的解题过程，但仔细一看，答案却是错的。

为了解决这个问题，OpenAI 也做了一些优化，并在今年 1 月末宣布 ChatGPT 数学能力升级。但从测试的结果来看，这次升级效果并不明显。

但这么一个连三位数混合运算都算不明白的工具却吸引了著名数学家陶哲轩的注意。最近一段时间，他似乎一直在探索 ChatGPT 能帮数学研究者做些什么。

通常来讲，如果你经常阅读数学文本，你会很容易找到一些线索，这些线索可以帮你评估某个特定论证部分的有效性、深度和重要性。这会加快你的阅读速度，让你可以迅速分离出论文的「肉」。陶哲轩总结说。

但 AI 生成的数学文本给了他截然不同的阅读体验：文本乍一看很有说服力，但只有慢慢地逐行阅读才能发现其中的缺陷。

在一次测试中，它向 ChatGPT 提了一个数学问题。乍一看，答案惊人地准确，因为它提到了一个高度相关的术语，还讨论了一个例子，这在一个有意义的答案中是非常典型的。但其实，ChatGPT 给出的答案并不完全正确：公式是对的，但不是有用的定义，例子也是错的。

在另一个关于「素数是否无穷多」的证明问题中，ChatGPT 给出的答案也并不完全正确。

虽然测试结果不太令人满意，但陶哲轩并没有对 ChatGPT 持完全否定的态度。他认为，像 ChatGPT 这类大型语言模型在数学中可以用来做一些半成品的语义搜索工作，也就是用它来生成一些提示。

比如在下面这个例子中，陶哲轩提出的问题是：「我在寻找一个关于 xx 的公式。我想这是一个经典的定理，但我不记得名字了。你有什么印象吗？」在这轮问答中，虽然 ChatGPT 没能给出正确答案（库默尔定理），但根据它给出的近似答案（Legendre 公式），我们可以结合传统搜索引擎轻松找到正确答案。

从这些测试中，我们可以看到 ChatGPT 这类 AI 工具与传统计算机软件的区别。

传统的计算机软件类似于函数:→：给定域中的输入，它可靠地返回范围中的单个输出()，该输出以确定的方式依赖于。但如果给定域外的输入（比如大括号用错，或者出现其他格式问题），则软件会出现无法定义的情况，或给出无意义的内容。

相比之下，AI 工具类似于概率 kernel μ:→Pr ()，而不是经典函数。输入，它们会给出一个从概率分布 μ_ₓ采样的随机输出。这个概率分布在() 的完美结果附近，但带有一些随机偏差和不准确性。但优势在于，这些工具可以比传统的软件工具更优雅地处理嘈杂或格式不那么规范的输入。

因此，想用 ChatGPT 辅助自己做研究的数学研究者务必要习惯这种差异。

当然，在数学方向上，ChatGPT 当前的状态可能不会持续太久。

前段时间，计算机科学家、Wolfram 语言之父 Stephen Wolfram 提出了一个想法：将 ChatGPT 与自己的 Wolfram | Alpha 知识引擎结合起来用，因为后者本就具有强大的结构化计算能力，而且也能理解自然语言。

Meta 在 2 月份发布的一篇论文也支持这种做法。他们提出了一种名为 Toolformer 的新方法，使得语言模型学会「使用」各种外部工具，如搜索引擎、计算器或日历（参见《语言模型自己学会用搜索引擎了？Meta AI 提出 API 调用自监督学习方法 Toolformer》）。

在未来几年，如何补齐 ChatGPT 的各项短板将成为非常热门的方向。

参考链接：https://mathstodon.xyz/@tao

相关资讯

新智元 2023-04-22

与人类智商相近的ChatGPT，在金融场景中解不开鸡兔同笼数学题？

1950年，艾伦图灵提出著名的“图灵测试”，给出判定机器是否具有“智能”的试验方法。于2022年末发布的ChatGPT更是在全球引发轰动效应，日前推出的多模态GPT-4显示出更强大的逻辑和推理能力。

ChatGPT GPT-4 金融

21世纪经济报道 2023-04-26

我们版ChatGPT来了！能讲四川话会算鸡兔同笼，但我兴奋不起来

狂丸研究所，每天涨点新知识ChatGPT的强大狂丸在之前的小哥介绍过，通过对话能帮你写论文、编程，它所代表的人工智能技术在最近的网络中掀起了一轮又一轮的风暴。而就在今天下午，百度也发布了一款聊天

ChatGPT 编程人工智能百度

小蓉时尚穿搭 2023-03-17

鸡兔同笼都能算错的ChatGPT，陶哲轩发现了它的价值

推荐体验

相关资讯

鸡兔同笼问题，试试chatGPT会不会做

AI智能教学：探索“鸡兔同笼”问题的有趣解法

复旦开源首个“中国版ChatGPT”：全新插件系统，能上网，会鸡兔同笼

与人类智商相近的ChatGPT，在金融场景中解不开鸡兔同笼数学题？

我们版ChatGPT来了！能讲四川话会算鸡兔同笼，但我兴奋不起来

近期资讯

剪映产品负责人张逍然离职 | 36氪独家

明星也逃不过孩子的“身高焦虑”，支撑起百亿生长激素市场｜早期项目

在这片“黑土地”上，百万工程师种出了“创新果实”

黄光裕豪赌汽车赛道

开业3个月排号突破2000+桌、获央视报道，烤鱼何以再次出圈？

「迈塔兰斯」获超亿元A+轮融资，建成全球首条超透镜量产交付产线｜硬氪首发

熟练掌握办公软件？来参加Excel世界大赛吧，用数据来打魔兽

用大模型打造AI科技导师，「无界矩阵」完成超千万元天使轮融资 | 36氪首发

都快2025年了，为什么韩国这飞机还会撞鸟？

没想到微信出的送礼功能，大家都还蛮喜欢

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响