当前位置:首页|资讯|腾讯

百般刁难腾讯新产品,它的极限被我测出来了

作者:科技狐发布时间:2024-06-19

从去年开始,国内各大互联网公司就先后推出了大模型产品,像是文心一言(百度)、通义千问(阿里)、豆包(抖音)、讯飞星火……

作为互联网巨头,腾讯动作不大,让人感觉成了大模型缺席者,事实上,腾讯开发了混元大模型,在腾讯部分产品里,正在发挥作用。

因为腾讯宣传力度不强,所以用户很难注意到,而前两天,腾讯终于带着他们的 AI 助手“元宝”强势来了。

就产品功能来说,元宝与其他的 AI 助手并没有什么区别,依然是对话界面+各种智能体。

当然了,几乎所有的 AI 助手都是如此,主流的 AI 助手里,只有天工开物搞了一个音乐创作的功能,可惜体验很一般。

信息搜索

回到腾讯元宝上来,按照腾讯官方说法,腾讯元宝接入了微信搜一搜、搜狗搜索、内容涵盖微信公众号文章,主打一个内容全面,信息准确。

老狐试着用他们搜索近期关注的一个互联网话题——抖音电商 2024 年的 GMV 还值得看好吗?

元宝生成的回答,逻辑清晰,开头说明了预测的 GMV 数据,以及关键的兴趣电商与货架电商增长对比,也提到了抖音电商的市场策略和外部环境的竞争。

可以注意到,文章一共引用了 8 篇文章作为参考,来源比较多样,从公众号到新浪新闻、网易新闻甚至还有《财富》杂志,在生成的结果里会标注资料来源,重要数据能迅速找到出处。

在生成结果末尾,提供了更多相关文章,基本来自公众号。

相比于引用资料来说,其实文末的文章质量更高,其中也包含可引用的相关数据,但它们没有被元宝收纳到“引用资料”中。

为了见到自己的文章出现在引用资料里,老狐找了曾写过的选题,结果第 7 条和第 8 条是科技狐发表在不同平台的同一篇文章。

类似的情况在老狐测试时重复出现,优化还不够。

大模型这类涉及到问答形式,需要 AI 引用数据资料来生成回答的模式,回答的质量取决于引用资料的质量。

腾讯元宝背后有腾讯的整个生态,尤其是微信公众号,后者有大量团队和个人在上面发布高质量文章,仅就文字内容来说,这是知乎、小红书比不了的。

但是……没错,老狐要说但是。

元宝在生成答案的末尾,附上的内容都是文字,没有视频内容,形式上不够丰富,尤其是在特定的问题上,视频能呈现出更好的效果。

比如面对“佛跳墙怎么做”这个问题,文心一言会提供视频内容,其中还有“老饭骨”明星大厨制作的视频,而元宝只有文字。

这需要腾讯后续升级优化,比如引入视频号的短视频,或引入其他平台如 B站、快手的视频内容。

文档总结

文档总结功能,现在成了大模型内卷的方向之一,尤其是文字长度。

今年 3 月中旬,Kimi 宣布支持文档最高字数达到 200 万字,没过多久,通义千问就把字数上限提升到 1000 万字。

可能有人会质疑上百万字数无用,然而,很多企业一份英文财报字数就可能超过 100 万。

腾讯说元宝能一次性解析最多 10 个 PDF/word/tet 文件,一次性阅读一本书不成问题。

先来看看普通的文章总结,老狐拿公众号的文章做了测试,结果让人有些失望。

总结里提到 SU7 的销量超出预期,以及雷军设定新的销售目标,相关数据原文有提到,但总结却没有列出来。

我甩给它小米的财报 PDF 连接,让它帮我找出关键数据,这一点,元宝完成得非常不错。

继续增加难度,我同时向它扔了蔚来、小鹏和理想三家车企的去年英文版年报的链接,让它整理一些关键数据。

它变成了文档提取失败,多次尝试依然无果。

于是我又特地下载三份年报到本地,上传数据让它读取。

这回倒是不会提取失败,生成了相关数据,并且用表格进行对比,但三家车企数据雷同。

老狐猜测原因是三篇财报字数接近 350 万,超过了元宝的文字长度限制,于是默认使用了最后上传的小鹏财报数据。

用 Kimi 和通义千问来总结,也无法成功,Kimi 提示“超过对话长度”。

不过,改成只总结蔚来的年报时,元宝正确引用了蔚来的数据,但却犯了一个致命错误,把 RMB 和 Dollar 弄混了。

*元宝总结的数据

*蔚来财报截图

老狐圆不回来了,可能元宝的英文不佳吧。

值得一提的是,在微信里打开好友发过来的 word 或 PDF 文档,可以选择用元宝打开,通过元宝小程序总结文档内容。

而在企业微信里,暂时还不支持元宝打开文档。

谁是真实的办公软件,谁是虚假的办公软件一目了然。

AI 写作

AI 写作也是如今大模型必提的功能之一,宣传的文案、策划等场景,大模型已经能够满足。至于技术要求更高、代替老狐工作的长文写作能力,大模型已经很少提及。

先来看一个比较普通的写作场景——写周报,这是我给的 prompt:

“帮我写一份上周的周报。我周一写完了之前没写完的视频稿,周二,周三,周四写了两篇公众号稿子,并体验了一款大模型产品,周五做了测评并写了一部分文稿”

这是元宝生成的答案。

Prompt 里只有简单的工作内容,生成的周报丰富了细节,比如“与视频团队沟通”、“撰写过程中注重内容的深度和广度”。

整体来说,这份周报内容写得还不赖,完成了大部分框架,根据实际情况再做调整,便足够应付咱们工作中的需要。

另外我让元宝完成一份策划方案,比如公司团建活动,给出 prompt 为:

“策划一场公司团建活动,参与人数为20人,地点就在公司,时间是下午一点半到六点半,活动内容包括近期工作总结,互动游戏。”

生成的活动策划案第一项是工作总结,安排的三个互动游戏适合室内,游戏道具也有提及。

只不过第三条“心得分享与交流”,在我看来没有必要,但这部分可能是大多企业结束团建的仪式。

这份策划方案大家认为如何?老狐认为还不错。

逻辑计算和常识

在考验大模型的逻辑能力时,最常用的题目类型是鸡兔同笼求解,不过类似问题已经难不倒普通的大模型,元宝同样如此。

提高难度,老狐用一道高考模拟题来考验它,原题是这样的。

上传图片让元宝识别题目,然而识别出现错误。

于是老狐又手动输入题目,最终计算出一个……错误答案!

小伙伴也别觉得元宝计算能力差,事实上,这道题我之前用文心一言、Kimi、通义千问、豆包都计算过(且都无法直接用图片提取题目文字)。

元宝,文心一言、Kimi、豆包利用不等式知识解题是正确的思路,但是原题需要变通,将 36=4(a+b) 带入进去提取常数,大模型显然没有这个创造力,纷纷选择硬解,集体翻车。

通义千问计算出了正确答案,不过没用不等式,而是通过微积分知识,求导确定极值。

通义千问这波是拿宰牛刀杀鸡。

我调整了 prompt,让它用不等式知识计算,看着它输出了 3 分钟计算过程,中途还更改计算步骤,最后变成了系统超时。

能否制造并使用工具是人与动物的区别之一,而能否灵活运用知识,是人与机器的区别。

常识问题在去年大模型爆发初期常常见到,还闹出了“林黛玉倒拔垂杨柳”的笑话。现如今,这个 Bug 已经得到优化,元宝在面对这类问题能轻松避开。

老狐用国外的文学知识对它测试,它也能正确指出其中的错误。

不过有些陷阱它还是无法避免,比如我在周五问元宝今年多特蒙德为何夺得欧冠冠军,它说得头头是道,然而比赛是周日凌晨才进行。

不过当比赛结束,再问它多特夺冠,它已经能指出其中问题所在。

大模型常识问题需要大量资料支撑,在事发前,没有任何资料,它可能就会胡言乱语。

大模型就像是三体人,与人类的诡计多端比起来,还是单纯了些。

AI 作图

在腾讯的宣传稿里,特意提到元宝作画的能力。

实际上,如果给到的 prompt 提到的主角单一,并给到环境描写,它能生成信息准确的图片。

一旦主角有两位,包含不同的细节,元宝生成的图片就对不上 prompt 了。

此外,在某些场景下,生成的人物面部会很恐怖。

这种情形下选择重复输出,能得到一张容貌姣好的美女照片,但眼神依旧怪异,而且伞骨歪斜。

老狐进行了多次测试后发现,如果人物是正面,且脸部占据画面较大的面积,元宝对人物面部刻画会更准确,一旦角度是斜侧,或者人物面部较小时,面部就会出现比例失调,尤其是后一种情形。

这不是元宝一个大模型的问题,其他大模型也会如此。

不过有些大模型在处理这类问题时,要讨巧得多,要么选择展示人物背面,避免脸部的刻画,要么就直接正脸,给侧脸是死活不会给的。

在他们面前,元宝、豆包像个耿直 boy,画人物面部几率要比其他几款大模型高得多。

反过来,耿直的元宝也更“听话”,画面与 prompt 更契合,用户更容易得到自己想要的画面。

总结

以上就是关于腾讯元宝的简单体验,在内容方面,它与微信生态结合更紧密,能引用更多微信公众号内容,这是元宝独一无二的优势。

作为一个 AI 助手,元宝可能最合适微信公众号创作者,比如老狐。

但元宝劣势明显,缺少短视频内容支撑,内容形态不够丰富。

不过最令老狐印象深刻的还是元宝在作画时的耿直,照着用户的 prompt 生成,不惜暴露自己的缺点,少了文心一言、通义千问的“圆滑”。

一边是元宝、豆包听话但有缺点的大模型,另一边是文心一言会隐藏缺点但执行不到位的大模型,大家觉得哪个好?

参考资料

腾讯元宝、文心一言、豆包、Kimi、通义千问等App。

编辑:木易


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1