百般刁难腾讯新产品，它的极限被我测出来了

作者：科技狐发布时间：2024-06-19

腾讯

从去年开始，国内各大互联网公司就先后推出了大模型产品，像是文心一言（百度）、通义千问（阿里）、豆包（抖音）、讯飞星火……

作为互联网巨头，腾讯动作不大，让人感觉成了大模型缺席者，事实上，腾讯开发了混元大模型，在腾讯部分产品里，正在发挥作用。

因为腾讯宣传力度不强，所以用户很难注意到，而前两天，腾讯终于带着他们的 AI 助手“元宝”强势来了。

就产品功能来说，元宝与其他的 AI 助手并没有什么区别，依然是对话界面+各种智能体。

当然了，几乎所有的 AI 助手都是如此，主流的 AI 助手里，只有天工开物搞了一个音乐创作的功能，可惜体验很一般。

信息搜索

回到腾讯元宝上来，按照腾讯官方说法，腾讯元宝接入了微信搜一搜、搜狗搜索、内容涵盖微信公众号文章，主打一个内容全面，信息准确。

老狐试着用他们搜索近期关注的一个互联网话题——抖音电商 2024 年的 GMV 还值得看好吗？

元宝生成的回答，逻辑清晰，开头说明了预测的 GMV 数据，以及关键的兴趣电商与货架电商增长对比，也提到了抖音电商的市场策略和外部环境的竞争。

可以注意到，文章一共引用了 8 篇文章作为参考，来源比较多样，从公众号到新浪新闻、网易新闻甚至还有《财富》杂志，在生成的结果里会标注资料来源，重要数据能迅速找到出处。

在生成结果末尾，提供了更多相关文章，基本来自公众号。

相比于引用资料来说，其实文末的文章质量更高，其中也包含可引用的相关数据，但它们没有被元宝收纳到“引用资料”中。

为了见到自己的文章出现在引用资料里，老狐找了曾写过的选题，结果第 7 条和第 8 条是科技狐发表在不同平台的同一篇文章。

类似的情况在老狐测试时重复出现，优化还不够。

大模型这类涉及到问答形式，需要 AI 引用数据资料来生成回答的模式，回答的质量取决于引用资料的质量。

腾讯元宝背后有腾讯的整个生态，尤其是微信公众号，后者有大量团队和个人在上面发布高质量文章，仅就文字内容来说，这是知乎、小红书比不了的。

但是……没错，老狐要说但是。

元宝在生成答案的末尾，附上的内容都是文字，没有视频内容，形式上不够丰富，尤其是在特定的问题上，视频能呈现出更好的效果。

比如面对“佛跳墙怎么做”这个问题，文心一言会提供视频内容，其中还有“老饭骨”明星大厨制作的视频，而元宝只有文字。

这需要腾讯后续升级优化，比如引入视频号的短视频，或引入其他平台如 B站、快手的视频内容。

文档总结

文档总结功能，现在成了大模型内卷的方向之一，尤其是文字长度。

今年 3 月中旬，Kimi 宣布支持文档最高字数达到 200 万字，没过多久，通义千问就把字数上限提升到 1000 万字。

可能有人会质疑上百万字数无用，然而，很多企业一份英文财报字数就可能超过 100 万。

腾讯说元宝能一次性解析最多 10 个 PDF/word/tet 文件，一次性阅读一本书不成问题。

先来看看普通的文章总结，老狐拿公众号的文章做了测试，结果让人有些失望。

总结里提到 SU7 的销量超出预期，以及雷军设定新的销售目标，相关数据原文有提到，但总结却没有列出来。

我甩给它小米的财报 PDF 连接，让它帮我找出关键数据，这一点，元宝完成得非常不错。

继续增加难度，我同时向它扔了蔚来、小鹏和理想三家车企的去年英文版年报的链接，让它整理一些关键数据。

它变成了文档提取失败，多次尝试依然无果。

于是我又特地下载三份年报到本地，上传数据让它读取。

这回倒是不会提取失败，生成了相关数据，并且用表格进行对比，但三家车企数据雷同。

老狐猜测原因是三篇财报字数接近 350 万，超过了元宝的文字长度限制，于是默认使用了最后上传的小鹏财报数据。

用 Kimi 和通义千问来总结，也无法成功，Kimi 提示“超过对话长度”。

不过，改成只总结蔚来的年报时，元宝正确引用了蔚来的数据，但却犯了一个致命错误，把 RMB 和 Dollar 弄混了。

*元宝总结的数据

*蔚来财报截图

老狐圆不回来了，可能元宝的英文不佳吧。

值得一提的是，在微信里打开好友发过来的 word 或 PDF 文档，可以选择用元宝打开，通过元宝小程序总结文档内容。

而在企业微信里，暂时还不支持元宝打开文档。

谁是真实的办公软件，谁是虚假的办公软件一目了然。

AI 写作

AI 写作也是如今大模型必提的功能之一，宣传的文案、策划等场景，大模型已经能够满足。至于技术要求更高、代替老狐工作的长文写作能力，大模型已经很少提及。

先来看一个比较普通的写作场景——写周报，这是我给的 prompt：

“帮我写一份上周的周报。我周一写完了之前没写完的视频稿，周二，周三，周四写了两篇公众号稿子，并体验了一款大模型产品，周五做了测评并写了一部分文稿”

这是元宝生成的答案。

Prompt 里只有简单的工作内容，生成的周报丰富了细节，比如“与视频团队沟通”、“撰写过程中注重内容的深度和广度”。

整体来说，这份周报内容写得还不赖，完成了大部分框架，根据实际情况再做调整，便足够应付咱们工作中的需要。

另外我让元宝完成一份策划方案，比如公司团建活动，给出 prompt 为：

“策划一场公司团建活动，参与人数为20人，地点就在公司，时间是下午一点半到六点半，活动内容包括近期工作总结，互动游戏。”

生成的活动策划案第一项是工作总结，安排的三个互动游戏适合室内，游戏道具也有提及。

只不过第三条“心得分享与交流”，在我看来没有必要，但这部分可能是大多企业结束团建的仪式。

这份策划方案大家认为如何？老狐认为还不错。

逻辑计算和常识

在考验大模型的逻辑能力时，最常用的题目类型是鸡兔同笼求解，不过类似问题已经难不倒普通的大模型，元宝同样如此。

提高难度，老狐用一道高考模拟题来考验它，原题是这样的。

上传图片让元宝识别题目，然而识别出现错误。

于是老狐又手动输入题目，最终计算出一个……错误答案！

小伙伴也别觉得元宝计算能力差，事实上，这道题我之前用文心一言、Kimi、通义千问、豆包都计算过（且都无法直接用图片提取题目文字）。

元宝，文心一言、Kimi、豆包利用不等式知识解题是正确的思路，但是原题需要变通，将 36=4（a+b）带入进去提取常数，大模型显然没有这个创造力，纷纷选择硬解，集体翻车。

通义千问计算出了正确答案，不过没用不等式，而是通过微积分知识，求导确定极值。

通义千问这波是拿宰牛刀杀鸡。

我调整了 prompt，让它用不等式知识计算，看着它输出了 3 分钟计算过程，中途还更改计算步骤，最后变成了系统超时。

能否制造并使用工具是人与动物的区别之一，而能否灵活运用知识，是人与机器的区别。

常识问题在去年大模型爆发初期常常见到，还闹出了“林黛玉倒拔垂杨柳”的笑话。现如今，这个 Bug 已经得到优化，元宝在面对这类问题能轻松避开。

老狐用国外的文学知识对它测试，它也能正确指出其中的错误。

不过有些陷阱它还是无法避免，比如我在周五问元宝今年多特蒙德为何夺得欧冠冠军，它说得头头是道，然而比赛是周日凌晨才进行。

不过当比赛结束，再问它多特夺冠，它已经能指出其中问题所在。

大模型常识问题需要大量资料支撑，在事发前，没有任何资料，它可能就会胡言乱语。

大模型就像是三体人，与人类的诡计多端比起来，还是单纯了些。

AI 作图

在腾讯的宣传稿里，特意提到元宝作画的能力。

实际上，如果给到的 prompt 提到的主角单一，并给到环境描写，它能生成信息准确的图片。

一旦主角有两位，包含不同的细节，元宝生成的图片就对不上 prompt 了。

此外，在某些场景下，生成的人物面部会很恐怖。

这种情形下选择重复输出，能得到一张容貌姣好的美女照片，但眼神依旧怪异，而且伞骨歪斜。

老狐进行了多次测试后发现，如果人物是正面，且脸部占据画面较大的面积，元宝对人物面部刻画会更准确，一旦角度是斜侧，或者人物面部较小时，面部就会出现比例失调，尤其是后一种情形。

这不是元宝一个大模型的问题，其他大模型也会如此。

不过有些大模型在处理这类问题时，要讨巧得多，要么选择展示人物背面，避免脸部的刻画，要么就直接正脸，给侧脸是死活不会给的。

在他们面前，元宝、豆包像个耿直 boy，画人物面部几率要比其他几款大模型高得多。

反过来，耿直的元宝也更“听话”，画面与 prompt 更契合，用户更容易得到自己想要的画面。

总结

以上就是关于腾讯元宝的简单体验，在内容方面，它与微信生态结合更紧密，能引用更多微信公众号内容，这是元宝独一无二的优势。

作为一个 AI 助手，元宝可能最合适微信公众号创作者，比如老狐。

但元宝劣势明显，缺少短视频内容支撑，内容形态不够丰富。

不过最令老狐印象深刻的还是元宝在作画时的耿直，照着用户的 prompt 生成，不惜暴露自己的缺点，少了文心一言、通义千问的“圆滑”。

一边是元宝、豆包听话但有缺点的大模型，另一边是文心一言会隐藏缺点但执行不到位的大模型，大家觉得哪个好？

参考资料：

腾讯元宝、文心一言、豆包、Kimi、通义千问等App。

编辑：木易

近期资讯

运输人网 2024-09-29

10分钟狂轰4枚“匕首”：又有4架F-16或被炸毁

连一根“救命的稻草”都不给乌克兰留！据环球时报报道，当地时间9月26日，俄军在深夜搞了个动静不小的“动作”，朝着乌克兰境内赫梅利尼茨基州的旧康斯坦丁诺夫卡机场，10分钟内狂轰了4枚“匕首”高超音速导弹。该机场疑似美制F16战机的主要驻地之一。从使用弹药的优先级来看，俄军“匕首”高超音速导弹，可是专打VIP级目标的，专挑值钱的硬茬，专门用来点穴斩首打击。不像大家耳朵已经听出老茧的伊斯坎德尔-M战术弹道导弹，主要用于打击大型指挥设施和高价值人员及装备集结地。所以，俄军这次“匕首”四连发，可真是“杀鸡”用了“宰

俞洁讲武堂 2024-09-29

肯尼迪总统《能力越大，责任越大》演讲

1963年5月18日，田纳西州纳什维尔市的范德比尔特大学迎来建校90周年纪念日，美国总统肯尼迪来到大学发表了本篇演讲，他教导大学生要勇于承担责任，因为知识分子拥有着更强的能力，也就肩负着更沉重的责任，望各位学成之后能够回报社会。Mr. Chancellor, Mr. Vanderbilt, Senator Kefauver, Senator Gore, Congressman Fulton, Congressman Evins, Congressman Bass, Congressman Everett,

Cpt_Speirs 2024-09-29

核武器最大的威慑效果是在发射架上

别跟我说什么“冷静”，也别跟我说什么“低调”！瞧地球另一边，那个成天嚷嚷着要“遏制”我们的，被迫降息了，政府被预告要破产了，两个党派争斗得更厉害了，而我们这边，洲际导弹试射成功了，3艘航母出海了，股市也随着央妈的“放水”翻红了，还有比这些更嗨的事儿吗！我可不是那种总爱在别人高兴时，专往人家头上泼凉水的“扫兴鬼”，讲真的，我太爱这种“此消彼长”了，尤其是洲际导弹试射成功，无疑就是给那些天天叫嚣着“和平从哪里来”的家伙最好的答案。洲际导弹翱翔在天际，这是对和平最大的贡献，也让全球看看，大国的“小性子”可真跟平

俞洁讲武堂 2024-09-28

八卦（五）

古往今来，常常有人有以下疑问：从大众到个人，该如何应时而变，因地制宜？如何求生避死，趋利避害？如何逢凶化吉，转祸为福？事情会如何变化，会得到何种结果，为免重蹈覆辙，人们该如何决定与行动？为了答疑，先贤以六十四重卦为载体，书写了名为“易”的生活指南。何为易？ “易”的契文字形，是“水从此器皿注入彼器皿”的简笔画；字象是“水之流转”。 “易”的金文字形，由“三”与口字的变形所构成；在金文中，“三”是“气”字的字形，故而易的金文字象是“气之交通”。所以，易字的本义，指的就是“盈亏”、“变化”、“交流”

Spirit_xl 2024-09-29

DDS测试环境搭建-1

DDS测试环境搭建-1 [图片]

上海北汇信息科技 2024-09-29

给排水设计 | 给排水施工质量红杠线及技术交底

近几年施工问题屡增不减，如何减少我们所谓的施工通病，成了经久不衰的话题，而结果就是，质量通病是可以通过细化标准严格按照规定施工来避免的！“质量红杠线”，是施工质量管理的底线、生命线，任何部门、人员不得违反！今天跟大家分享关于装饰项目中水电安装工程-给排水施工质量红杠线问题，供大家参考学习：1、卫生间墙面给水管开横槽错误做法△ 正确做法△通病现象：给水管安装时墙面开横槽。原因分析：1、会破坏墙面结构和强度，而且不容易维修；2、后期在安装五金件时可能把水管打破,引起麻烦。预防及解决措施：卫生间各支管分别从顶

七彩教育机构 2024-09-29

电动车铅酸电池迎来2大利好！铅酸电池强势回归，主要有3个原因

阅读前请您先点击上面的“关注”二字，后续为您提供更多有价值的内容，感谢支持！近日商务部等5部门提出锂电换铅酸给予更多补贴政策，同时电动车新国标修订稿提出增加电动车重量，这给铅酸电池带来2大利好！铅酸电池强势回归，将是大势所趋，主要有3个原因。 [图片] 电动车铅酸电池迎来2大利好：利好1：对老旧锂电池电动车换购铅酸电池电动车加大补贴 8月30日，商务部等5部门印发《推动电动自行车以旧换新实施方案》，该方案提出组织合规的电动自行车生产企业的合格产品参加以旧换新活动，对老旧锂电池电动车换成铅酸电池电动车，

全球电动车 2024-09-29

百般刁难腾讯新产品，它的极限被我测出来了

推荐体验

相关资讯

AI写论文，如何避免被AIGC检测出来？

chatGPT都出来了？为什么我还要孩子学习它？

它来了它来了！它带着打磨已久的大招卷过来了

新产品即将发布

什么是ChatGPT水印，ChatGPT生成的内容如何不被检测出来，原理什么？

近期资讯

明朝官吏勒索百姓，朱元璋是如何做的？判决大快人心

草书创作毛泽东《洪都》：挥洒激情与敬意（书法：张德进）

8月轻卡市场表现平淡蓄力进入车市旺季

10分钟狂轰4枚“匕首”：又有4架F-16或被炸毁

肯尼迪总统《能力越大，责任越大》演讲

核武器最大的威慑效果是在发射架上

八卦（五）

DDS测试环境搭建-1

给排水设计 | 给排水施工质量红杠线及技术交底

电动车铅酸电池迎来2大利好！铅酸电池强势回归，主要有3个原因

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响