IT时报记者潘少颖图壹图网

Grace改名为豆包的时候，字节跳动没少被人笑话。但就是这个接地气的名字，如今站上了字节大模型家族的C位。字节跳动战略和产品副总裁朱骏曾这样解释，一定要拟人化，产品起名的通用原则是简单、好读、好记。

在豆包家族中，有五个垂类模型，分别是角色扮演模型、语音合成模型、声音复刻模型、语音识别模型和文生图模型，基本涵盖了目前模型普遍使用的场景。

在8月中旬举行的火山引擎AI创新巡展—上海站活动上，火山引擎总裁谭待表示，豆包大语言模型最新实现多维度升级，综合性能提升20.3%。

在豆包首页的“对话”中，可以清晰地看到功能分类，包括写作神器、AI图片生成、英语外教、文案助手、工作日报等，从功能上来说，和其他家的大模型功能比较相似。但是豆包的“智商”有多高？不妨来考考它。

AI图片生成：从简至繁的挑战

对于大模型来说，图片生成说难也不难，说不难也难，因为没有固定的正确答案，比较简单的要求，大模型或许都能完成，但是对于一些较为复杂的指令，就要看大模型的“智商”了。豆包大模型支持写一句话即可生成图片，而且多种风格可选。

“一个人在沙滩漫步，脸色忧郁，漫画风”，条件比较简单，半分钟左右，豆包生成了四宫格，四幅画基本都满足条件，背景是蓝天、白云、沙滩和大海，主人公的服饰、步态、方向不一样，供用户选择，如果有满意的图片，可以下载。但是，“忧郁”这个表情并没有很好地刻画出来，第一眼看上去并没有感受到主角的忧郁。

在这幅图的基础上，《IT时报》记者提出了修改要求，“把男性变成女性，表情再忧郁一点”，本意是把主人公换成女性，但豆包似乎没理解，新生成的四张图中，虽然女孩的表情更显忧郁，但背景已经不是海边，而且人物风格也从漫画变成写实，完全和第一张图没有关系。

“背景不变，在海边，依然是漫画风格”，《IT时报》记者继续调整，得到这个指令后，豆包生成的图片是四幅海边的漫画图片，就是第一幅图片的背景，但是主人公不见了。看起来，豆包并没有把这三个要求看成是连续的要求。

此前，《IT时报》记者在“调戏”其他大模型时，发现如果画面中有多人或者不同年龄的人群，生成的图片效果并不理想。“海滩上，外婆、妈妈带着一个小女孩在捡贝壳，漫画风”，这次豆包的表现不错，既展现了三个女性，年龄层次也很容易区分，背景、动作、风格都没有出现失误。

看起来，尽量一次性把图片的条件都说清楚，豆包基本上都能在画面上展现出来，但是在对画面进行微调时，豆包还应该更清晰地把要求串联起来。

AI搜索：从基础到深度

此前，《IT时报》记者曾做过夸克、元宝和天工的AI搜索功能，总体而言，各家AI搜索应用各有各的优势，但也会有“迷糊”的时候。

看看豆包的AI搜索功能如何？

“水由哪些物质构成”，豆包基于8个搜索来源，包括抖音百科、网易、新东方在线等，给出了答案。总体来看，答案还是很详细的，水（化学式：H2O）是由氢、氧两种元素组成的无机物，在常温常压下，水为无色无味的透明液体……

豆包还有深入搜索功能，同一个问题，搜索了20个来源，从水的元素组成、分子构成讲到了化学性质以及在生命活动中的作用。虽然很详细，但非常专业，于是被要求“解释得通俗一点”，这时，回答的风格变了：水由氢元素和氧元素组成，就好像用氢原子和氧原子这两种“小积木” 搭成了水这个“大东西”。在我们身体里，水就像一个“小卡车”，把营养物质运送到身体各个部位，又把代谢产生的废物运出去。用了比喻的方法，解释得比较清楚。

在实时新闻搜索方面，豆包的精确度也较高。“最近上海的家电以旧换新政策是什么”，豆包通过9个搜索来源，总结出上海最近的家电以旧换新政策是从2024年9月7日至2024年12月31日，对个人消费者购买冰箱、洗衣机等8类1级能效产品按照销售价格20%予以补贴，2级能效产品按照销售价格的15%予以补贴，每位消费者每类产品可补贴1件，每件补贴不超过2000元。

“适老化产品有哪些可以参加补贴？”，继续追问，豆包也很快给出了详细的答案，分别是按照国家政策补贴的5个品种，如语音手势控制电视机、语音手势控制洗衣机等。此外还有按照本市政策实施补贴的15 个品种，包括烟雾、燃气、水浸报警器、智能摄像头、智能视频门锁等。

再考一下豆包的思辨能力，“现在的儿童智能手表好吗”，这个问题没有标准答案。豆包从优缺点两方面分析了儿童智能手表，优点有保障安全、方便沟通、辅助学习等，缺点有功能冗余、诱导消费、隐私泄露等。以“功能冗余”为例，豆包解释部分儿童智能手表预装了多种应用程序，如聊天、故事、音乐等，可能会分散孩子的注意力，影响学习和生活，一些关键点都点到了。

总体来说，豆包的搜索能力还比较“在线”。

人机交互：从普通话“卷”到方言

大多数时候，用户都是用文字和大模型进行交互，但这并不适用于所有的场景，有时需要和大模型用语言交互。经过升级之后，豆包的语言能力也大大提升。

如果和豆包用语言沟通，和真人之间沟通比较像，可以随时打断，也可以随时转换话题，简单来说，就是支持“边想边说”，让大模型跟着你的思路。

值得一提的是，豆包从普通话“卷”到了方言，可以识别粤语、上海话、四川话、西安话、闽南语等多种方言，但目前豆包仅支持方言输入，暂不支持方言交互，这样可以解决在一些会议或者交谈场合，如果对方讲的是方言，可以通过豆包记录整理。

豆包对方言的识别能力怎么样？《IT时报》记者用上海话和豆包进行了一番对话。

“侬可以帮吾写篇稿子伐”，一开始豆包似乎还没回过神，屏幕上的文本把“写篇稿子”翻译成了“皮果子”，以至于豆包无法理解，还反问一句“侬吃过饭了伐”，看来把“皮果子”当成了一样食物。

当《IT时报》记者纠正“不是吃饭，是写篇稿子”之后，豆包接下去的表现渐入佳境，“今朝上海举行了外滩大会，侬晓得伐”，“吾晓得呀，主题是‘科技，创造可持续未来’，是伐”……

所有这些对话并非在安静的环境中进行，“背景音”是几乎盖过记者声音的聊天声，有普通话、上海话，还有其他方言等，也就是说豆包要从这些声音中精准找到是谁在和它对话。根据文本翻译的内容，它并没有受到杂音的干扰。此外，在豆包“说话”时，记者经常打断它，一听到记者发声，它便立即停止说话。

聊天在停顿了5分钟后继续进行，“侬在做啥？”记者向豆包发问。豆包很快回答：“吾在帮侬写稿子，侬刚刚问我外滩大会的主要内容，是想让帮侬写一篇外滩大会的新闻稿，对伐”，这个回答深得记者的心。豆包是个“严谨”的大模型，“侬告诉我稿子字数、风格、发布渠道，吾现在就帮侬写”。

真是一场愉快的聊天。

对话豆包一文一图见“智商”高低

对话豆包一文一图见“智商”高低

AI图片生成：从简至繁的挑战

AI搜索：从基础到深度

人机交互：从普通话“卷”到方言

推荐体验

相关资讯

一文教会你！用豆包MarsCode 开发「评论情感分析机器人」

5000字+多图，一文看清“扩散模型编年史’ ！

一文搞懂生成式AI（一）

一文帮你看懂ChatGPT

一文带你入门LangChain

近期资讯

医院设门诊专治数理化不好：3天已约满

549元！小米充电宝25000 212W开售：彩色数显屏 9重保护

今年国庆假期打车高峰提前滴滴发放4亿元司机补贴

领克否认帮其他品牌清库存：电池、电机均为定制生产和调校

特供酒全是假冒伪劣！中消协发声：全社会应共同抵制

淘宝已接入微信支付！官方确认：京东双11前接入支付宝

东京奥运会曝出负面！丰田章男：丰田终止奥林匹克合作协议

比亚迪首席科学家：20年内磷酸铁锂电池不会淘汰

华为史上最大平板便宜了！全系降400：4799元起

多喝弱碱性水能改变体质专家：假的

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

对话豆包 一文一图 见“智商”高低

对话豆包 一文一图 见“智商”高低

AI图片生成：从简至繁的挑战

AI搜索：从基础到深度

人机交互：从普通话“卷”到方言

对话豆包一文一图见“智商”高低

对话豆包一文一图见“智商”高低