这周二有用户发现,大模型无法分辨“9.11和9.9哪个大”的问题,随即国内外的大模型都被问了一遍,强如ChatGPT也翻车。有人在找乐子的同时,也有人在考虑其中的原因——毕竟大模型的运作原理现在还是黑盒,虽然OpenAI已经破解,但理解起来还没那么快。
接下来,大家关注的就是雷军的演讲。据悉已经会发布一些小米的新品,具体消息还未可知。
其他新鲜的动态,请看本周周报。
一、值得关注 9.11和9.9哪个大?12个大模型8个都答错,ChatGPT也翻车了
引发这一问题的是上周末国内一个综艺相关的热搜。
7月13日,在最新一期的《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%,有网友质疑排名有问题,认为13.11%大于13.8%。随后,关于13.8和13.11大小比较的话题冲上热搜。
本周二,一道小学生难度的数学题难倒了一众海内外AI大模型。
9.11和9.9哪个更大?记者就此问题测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。
首先是目前全球公认第一梯队的大模型ChatGPT,在被问到“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。
询问月之暗面旗下kimi,它在比较小数部分时认为,9.11的第一位小数是1,而9.9的第一位小数是0,错误地给出了小数,得出结论9.11更大。
询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单看似有理有据实则胡说八道。豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且测量长度时“9.11 米要比 9.9 米长”。从答案来看,几个答对了的大模型解题过程都很相似。
以文心一言为例,成功地分开比较了整数部分和小数部分。
大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9.考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。
关于此类事件,平台有不少文章进行了详细的分析和讨论:
暑期赴港旅客00后占35%,酒店布局下沉市场成趋势
步入7月,暑期旅游大幕正式拉开。
携程数据显示,截至7月15日,今年暑期境内酒店的搜索热度,相较2023年同期增长约20%。尽管个别旅游目的地出现下滑,但大部分热门旅游城市的酒店消费依旧火爆。国内避暑与亲子属性的出游,占据暑期游主导位置;在免签政策的利好之下,入境游今年增长强劲。
在出境游与国内五线城市及县域等下沉市场的分流下,部分传统旅游目的地客流增速放缓,而酒店企业则加速拓展新兴旅游市场,华北、华南、西南成为布局重点区域。
7月18日,由香港机场管理局、中国民航杂志社、在线旅游平台去哪儿联合举办的“人生第一张机票·飞香港”活动在重庆江北国际机场拉开序幕。50名大学生接受香港机场管理局免费赠予的机票,从重庆飞往香港。
去哪儿数据显示,截至7月18日,在去哪儿平台上预订暑期赴港的机票预订量同比去年同期增长了近八成,相较2019年同期增长超过三成。其中,00后群体预订占比达35%。
雷军:7月19日举办第5次雷军年度演讲
雷军在微博表示,“7月19日晚7点,就是本周五晚上,我将举办第5次雷军年度演讲,主题是《勇气》,讲讲造车的来龙去脉和这三年多跌宕起伏的故事。”
二、产品动态 OpenAI发布最新技术研究,AI“黑盒”不再是难题!
7月18日凌晨,OpenAI在官网发布了最新技术研究——Prover-Verifier-Games。随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这也就会出现输出“黑盒”的情况。为了解决这个难题,OpenAI提出了全新训练框架Prover-Verifier Games(简称“PVG”),例如,用GPT-3这样的小模型来验证、监督,GPT-4大模型的输出,从而提升输出准确率以及可控性。
小冰AI数字员工升级:发布全新“零样本”技术
小冰公司宣布全新的“零样本”数字人(Zero-shot Xiaoice Neural Rendering,Zero-XNR)技术正式上线,并同步推出基于Z-XNR技术的全新普惠型数字员工产品,进一步丰富小冰AI数字员工产品线。据介绍,新技术依托超千亿大模型基座以及基于大模型构建的数字人交互套件,将数字人所需的训练数据压缩至“秒级”、使定制时间达到“立等可取”,而且生成的数字人能够直接应用于实时交互。
饿了么升级发布“超级吃货卡”:无门槛、全平台商家通用
继昨日宣布平台经典活动“猜答案免单”正式回归后,饿了么再推出让用户省钱“新招”。7月17日,饿了么站内公告,将全面升级平台的“超级吃货卡”玩法体系。据介绍,升级后的“超级吃货卡”将为消费者提供红色和金色两种类型:两种超级吃货卡均不设使用门槛,其中红色超级吃货卡红包最高可涨至28元、金色超级吃货卡全平台商家可通用。
三、运营动态 美团外卖内测“省钱版”,“拼好饭”后再推低价产品
美团外卖内部将“高性价比”确立为一个重要方向,在产品层面围绕该方向在美团外卖app内推出“省钱版”,它还有另一个说法叫“B版”。该项目由外卖事业部产品负责人崔宇青负责,向外卖事业部负责人薛冰汇报。
美团外卖客服人员回应称消息不实,没有“省钱版”这个说法。如果是内测,也是点对点发给个别客户,不会在多个城市进行内测。上述客服人员表示,美团外卖确实进行了低价产品的推广,“拼好饭”已经在全国范围内推广。此外,公司还于近期升级了美团外卖红包等功能,但没有“省钱版”。“如果有,我们会第一时间接到通知。
重金再砸低价策略,“京东超级18”将上线
从京东内部人士处获悉,京东零售将整合全站资源,做一个关于低价的持续性项目——“京东超级18”。该活动自7月起,以月度为周期,固定在每月17日晚8点至18日全天,每期都会上线一些高价值产品,一口价18元。本月17日上线的首期活动,会有日常售价上万元的产品套装,还有茅台等上千元产品。
记者进一步了解到,与以往京东的大促活动不同,此活动售价18元的产品不会被“一口气”放出,而是采用不定时、不定位置的方式分批上架,用户需要时常浏览活动页面才有机会抢到。
这种营销模式,京东也不是第一次尝试。京东集团创始人、董事局主席刘强东很多年前就带团队推出过一档类似活动,叫“月黑风高”,当时的活动只在半夜进行,主打的品类是3C数码。活动是在6月不定期上线,需要用户经常上线浏览发现。
高德打车推出”防晒补贴”
近日,高德打车宣布在全国范围内推出“防晒补贴”,并匹配了有助于减少暴露在烈日下的贴心科技服务,旨在让广大用户即便在三伏天出行,也能拥有更好的体验。在此之前,高德打车也曾联合合作网约车平台,在全国超360个城市发放6亿元左右“清凉补贴”,与司机群体共同分担夏季出车成本,以在暑期出行高峰期,更快更好地为乘客提供清凉舒适的出行服务。
哈啰顺风车推出订单PK模式
哈啰顺风车推出订单PK模式——在订单匹配前,有意愿合乘的车主将先进入PK程序,平台将综合接单距离、顺路度、服务评价等指标,为乘客匹配最优车主出行。
哈啰顺风车业务总监陈浩透露,PK模式上线试点以来,用户出行好评率上升了5%,车主平均接单距离和成本减少了约10%。
四、好文推荐
《互联网招聘30年,一场卷效率的“战争史”》作者@表外表里
从早期的职位广告版(Job Board)模式到如今的社交招聘和智能推荐,每一次技术革新和模式创新都极大地提高了招聘效率。然而,尽管技术不断进步,招聘行业依然面临着匹配效率低下的挑战。本文将回顾互联网招聘的发展历程,分析不同阶段的招聘模式,并探讨未来的发展趋势。
《贝壳找房 x 网易传媒IMC整合营销传播》作者@一个符号工作室
在这个快速变化的时代,大厂的光环似乎不再是唯一的职业归宿。许多曾经在互联网巨头中奋斗的人才,如今选择了另一条路——自媒体。他们的故事,是关于勇气、自由与重生的传奇。从字节跳动到小红书,从运营总监到自由创业者,这些个体的转变不仅是职业生涯的跳跃,更是对自我价值和生活方式的深刻探索。本文将带您走进这些大厂离职者的内心世界,一探他们如何在旷野中寻找方向,在围城中突破自我。
《大厂离职做博主:是旷野也是围城,也有人已经后悔》作者@五环外OUTSIDE
本文作者分享了一个贝壳找房与网易传媒IMC做的传播案例,从预热到后期神话,分事件营销、内容与效果营销和渠道营销三部分,给大家分享了整个事情的执行经过,供各位参考。
五、精彩问答
提问:为什么大部分评分系统初始值和封顶都是5?
很多有评分的初始值都是5分,用户给差评就往下降,
如果一开始都是好评,又不会往6分涨,但是当有1个差评,立马往下降,为什么这么设计?
欢迎来围观:点击此处,前往回答
本文值得关注、产品动态、运营动态内容,选取自栏目汇总,信息源自央视新闻、新浪科技、界面、财联社、澎湃新闻、每经网等
问题来自人人都是产品经理旗下问答平台 ——,欢迎各位小伙伴前往交流、切磋~