没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??强如GPT-4o,都坚定地认为9.11更大。谷歌Gemini Advanced付费版,同样的口径。新...【查看原文】
没想到,一道小学生难度的数学题,竟然难倒了一众海内外AI大模型。元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。
AI大模型ChatGPT商汤
光明网 2024-07-17
AI大模型人工智能
新闻夜航 2024-07-19
大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9,考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。记者追问ChatGPT有没有其他比较方法…
ChatGPT
第一财经 2024-07-19
根据GPT-4omini在多个关键基准测试中的得分,可以看出,其在文本和多模态推理、逻辑推理、数学和编程等方面均表现出色,优于市场上其他小型模型。据ArtificialAnalysis统计,GPT-4omin…
OpenAI编程
新榜 2024-08-11
元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。目前全球公认第一梯队的大模型ChatGPT,在被问到“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。
红星新闻 2024-07-17
11月5日消息,据《华尔街日报》报道,在美国政府的最新指令下,美国半导体企业正在将中国公司从自己的供应链当中剔除。报道称,美国半导体设备制造商正在告诉它们的供应商,需要找到从中国获得
19小时前
快科技11月5日消息,据“极电光能”官微发文,极电光能GW量产线调试实现全工序的整线贯通,2.8平米超大面积钙钛矿组件首片顺利下线,组件功率达到450W,全面积效率16.1%,是有史以来面
快科技11月5日消息,每次劳斯莱斯出事故总会引起大家的关注,毕竟这种奢华汽车碰一次光是定损都绝非普通人所能承担。近日在广州,一台改了红色车膜的劳斯莱斯古斯特就被一辆泥头车不小心给蹭上
快科技11月5日消息,苹果最新款iPhone 16因未满足40%零部件当地生产的要求,而被禁止在印尼销售。据媒体报道,为了解决这一问题,苹果公司提出了在印度尼西亚投资近1000万美元的计划,以期解除
快科技11月5日消息,Intel CEO帕特·基辛格近日公开抱怨,美国政府的《芯片与科学法案》落地太慢了,因为法案通过后Intel已经投资多达300亿美元在美国建设晶圆厂,但是至今仍然没有拿到美
在正文第一句加入“我正在参加「豆包MarsCode AI练中学体验活动」详情请看:掘金小册上线 AI练中学功能 | 你的 AI 编程助教喊你免费领小册啦!
鼠鼠有出息 20小时前
快科技11月5日消息,据媒体报道,比亚迪正加速推进自主研发智能驾驶技术,计划将基础智能驾驶功能普及至入门级车型。据悉,比亚迪在全集团范围内征调员工以加强自研智驾部门,显示出集团对智能
快科技11月5日消息,捷尼赛思品牌针对电动汽车车主的续航焦虑问题,推出了一项创新且高效的解决方案。该品牌深知纯电车主对出行体验的重视,因此特别设计了“随心远行”服务,以满足
快科技11月5日消息,据媒体报道,英国国家医疗服务体系(NHS)即将开始试用一款名为AIRE的基于AI“死亡计算器”程序,该程序能够通过分析心电图测试结果,来预测患者的预期寿命。据
快科技11月5日消息,今年天猫双11,淘宝百亿补贴重磅加码,升级为“百亿超级补贴”直击全网底价。从官方获悉,截止11月3日,淘宝“百亿超级补贴”订单量超过1亿单,同比高
Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1