当前位置:首页|资讯|AI大模型|阿里巴巴|腾讯

AI数学难题曝光多家大模型误判911与99大小之争

作者:Jm传媒发布时间:2024-07-20

关于近期AI大模型在处理基本数学问题上的表现,尤其是诸如“9.11和9.9哪个大”这类简单对比题目的错误率,引发了业界广泛关注与讨论。多家知名大模型开发公司,包括阿里巴巴、腾讯、网易有道、学而思等,对此现象进行了深入剖析。他们普遍指出,大模型在面对此类问题时的准确率波动,源于其基于概率预测的运行机制,以及在数学规则理解和应用上的局限性。

阿里通义实验室产品经理王晓明表示,大模型在解答这类问题时,并非像人脑那样直接进行数值比较,而是基于语言模式进行预测。这意味着,即便同一问题,大模型也可能给出不同答案,其正确与否取决于模型在训练过程中接触到的相关情境。腾讯混元团队补充说明,大模型作为语言模型,其核心在于预测文本序列中的下一个词,这种机制使其在处理数学运算或数字比较时存在天然障碍。

为改善大模型的数学处理能力,行业内部正积极寻求解决方案。一方面,提升模型训练数据中数学相关素材的比例,以增强其在数学领域的理解和推理能力;另一方面,通过集成外部工具,如计算器和代码执行器,来弥补大模型在精确计算上的短板。学而思的九章大模型(MathGPT)便是一个成功案例,该模型通过大量数学训练数据和模拟学习过程,显著提升了在数学题解答上的准确性和逻辑连贯性。

值得注意的是,提问方式对大模型的表现有着重要影响。明确指示、逐步引导或设定特定场景,能帮助模型更好地理解问题意图,从而提高解答质量。然而,彻底解决数学难题,仍需依赖于下一代大模型的迭代升级,以实现更深层次的数学能力和逻辑推理的优化。

尽管当前大模型在处理数学问题上存在局限,但业界普遍乐观,认为通过不断优化训练策略和算法,未来的大模型有望在数学领域展现更强的潜力。同时,持续收集和分析边缘案例,对于推动大模型能力边界的扩展至关重要。随着研究的深入和技术的进步,大模型在数学领域的表现值得期待。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1