草莓难救被“月抛”的AI对话产品？

作者：AI鲸选社发布时间：2024-09-14

OpenAI揭开草莓模型神秘面纱，能不能算GPT-5，坊间争议声音很大。

这就是今日凌晨一点，OpenAI发布的两个模型：o1 mini，o1 preview。

据官方消息，与GPT-4一样，OpenAI o1也以AI对话和API接口的形式呈现；而与GPT-4系列不同的是，o1可以解决比GPT时期的科学、编码和数学模型更难的问题。具体来看，之前的GPT模型旨在模仿其训练数据中的模式，而o1的训练旨在让其独立解决问题。

意味着o1模型可以像人一样，需要花更多的时间去思考问题，尝试不同的策略，甚至能意识到自己的错误。

听着很厉害对不对？但实际4O、O1等大模型“寄生”的AI对话类产品，他们的用户数并不高。

而据QuestionMobile，AIGC APP在工作日期间的活跃度高于双休日，推测现阶段AI与用户办公场景的适配性更强，AI主要围绕工作场景，为用户生成文本、图片等内容信息。

o1模型虽在物理、化学、生物、编程等领域表现得像博士生一样好，但对与编程能力来说，755万程序员占国内人口不足1%，可用武之地并不多，对C端大多数用户来说带来的效益并不高。

尤其近日，AI对话类App的用户留存问题被推至风口浪尖，更衍生出了“大模型六小虎泡沫即将破灭”的说法，AI对话的处境岌岌可危。尽管阿里原技术副总裁贾扬清已经提出质疑，下图30日国产5大AI对话类产品留存率接近0，这一数据应该不准确，但AI对话现在确实有一点“盛名之下，其实难副”。

图源：贾扬清朋友圈

根据QuestMobile 权威数据显示，头部AIGC APP运营数据活跃率低，均在20%以下；忠诚度方面，3日留存均在50%以下；流失风险高，部分APP的卸载率在50%以上。

坐拥数亿注册用户但日活很低的AI对话类产品，新的草莓大模型能否拯救呢？

9.11还是9.9大？AI界的亘古难题

曾经AI对话因回答错“9.11还是9.9大”被热议，现在国内各家都迭代了多代大模型，文心、豆包、Kimi等都能答对这道简单的数字题。但是OpenAI新更新的o1模型却还是沉迷自己不知名的逻辑怪圈里，找不到正确答案。

但国内大模型也并没有领先多少，但当我们问对话大模型一些客观的问题，如“草莓的单词里有几个r”、“打了警犬算袭警吗”等问题时，就会发现，这个刚刚还无所不能的AI助手突然变得手舞足蹈、不知所云了起来。

目前来说，对话大模型在简单的场景仍易漏洞百出，网友戏言：就这？取代我们人类？

诚然，大模型幻觉率高的问题，始终制约着AI对话在C端的渗透。专注于用户体验的研究机构Nielsen Norman Group在23年9月发布的一篇研究文章中提到，在曾经使用过AI工具的人中，大多数（78%）将 AI 工具用于工作和个人目的；8%的人仅将 AI 用于个人用途。

而在精益求精的工作用途中，大模型幻觉显得更加致命。不仅如此，工作场景中精确的指令反而更易让大模型“发懵”，AI对话的表现也并不出色。

在十字路口与脱口秀演员毛东的播客中，毛东提到，在用AI对话启发脱口秀文本创作的过程中，需要提前对对话模型进行5分钟左右的预训练，而预训练后对话AI生成的稿件也并不能直接起作用。输入一些稍复杂的指令，如要求大模型同时将“模仿路易·C.K.脱口秀风格”、“加入结婚话题的段子”、“带一些北京方言”融入文本创作，大模型就会分不清重点，生成的脱口秀文本索然无味。

同样的，Nielsen Norman Group的用户研究也指出，在使用对话AI时用户几乎总是进行多步迭代，因为人工智能无法准确提供用户想要的东西——它只能猜测意图。假如问对话AI“从上海出差到北京，近十五天有什么天气变化？有哪些穿衣建议”，则需要先对AI下达查询近15日天气的指令，然后引导其回答上海与北京的温度差异，以及针对北京温度进行穿衣建议。

然而，对于同一问题，似乎国内AI对话还有部分进步空间，Claude、ChatGPT的回答更精准一些。

对话AI的记忆也限制了其用户体验。通常在与AI进行超过7-10轮对话后，AI的回答开始变得混乱或不连贯。这就像你在跟一个注意力持续时间只有5分钟的人聊天，每过一会儿就得重新介绍一遍背景，导致AI对话用户体验感平庸。

正如我们所见，无论是线性的还是非线性的回答，人们在滚动对话记录，寻找合适的回答时都容易迷失方向。这个过程中，对话大模型理解和表达能力有限，整体用户体验平庸，大多数用户们也经历了从新鲜感到失望，AI对话也难以高效留存住用户。

多模态交互技术不够成熟，距离“Her”实现尚远？

电影《Her》中的人工智能不是一个简单的对话式AI，她不仅能通过声音表现出极为复杂的情感，比如幽默、温柔、关怀甚至是嫉妒，还具有高度的情感智能和自主学习能力，能够理解人们的情感需求，并根据互动不断优化自己的言行。

仿真的语音对话交互、流畅的多模态体验，使故事的男主人很快忘记了面前的“女声”只是一团冰冷的算法，深陷爱河。

而5月，OpenAI的ChatGPT-4o发布会结束后，Sam Altman在Twitter上发了一个简短的词：“her”，暗示着OpenAI已接近于完成科幻电影《Her》中，那位女性语音智能机器人的能力。

GPT-4o支持文本、音频和图像的任意组合的输入和输出。Mark Chen演示GPT-4o的多模态成果时，他告知ChatGPT自己正在做演示，询问GPT自己非常紧张应该怎么办。ChatGPT提示他：“深呼吸一下吧，记住你是个专家！”随后，Mark Chen用非常急促的几声喘息回应，ChatGPT则用吃惊语气下的“慢点呼吸，你可不是个吸尘器！”来回答他，幽默的回答令人忍俊不禁。

GPT高效的生成速度，带来流畅的多模态交互体验，虽然暂时还不能如《Her》中一样流畅地进行视频对话，但演示案例中的语音对话已非常接近。

现实是，4o语音能力还没发布，o1还不具备浏览网页或处理文件分析功能。尽管它具备图像分析功能，但该功能暂时关闭，等待进一步测试。

但国内月活第一的豆包APP的互动能力却稍显逊色。豆包虽然能识别语音，并进行对话，但其生成速度却不及GPT，百度的文心生成速度则更慢。不仅如此，豆包也无法识别对话过程中的语气。AI鲸选社在与豆包交流时，用很沮丧的语气说“今天天气可真好啊”，可豆包却判断出对话者的情绪是不错的。

图注：与豆包语音交互过程的文字记录

百度的文小言语音对话，虽有AI虚拟角色丰富用户的视觉体验，但其生成内容实在是慢，用户在交互过程中盯着虚拟角色迟迟不“说话”，很容易“跳戏”。

图注：文小言语音交互界面截图

智谱清言于9月5日上线了“视频通话”功能，向着Her的目标又迈进了一步。然而，智谱的视觉能力不太完善，把图中的紫色看成粉色，绿色误认为灰色，堪称一位“色弱”的AI助手。不过，它的视频对话机器人非常活跃，善于引发话题，它会夸赞你的窗帘很有设计感，还会自己找话题，问你有没有什么拿手的菜。值得一提的是，智谱的生成速度比文心和豆包都稍快一些，交互体验还不错。

图注：智谱清言视频聊天截图

虽然现阶段语音、图像识别等技术正在快速发展，但真正流畅、自然的多模态AI对话体验仍然任重道远，目前来说，国内AI对话的多模态交互还不够成熟。

但无论是“her”还是GPT-4o，可见的是，具备多模态交互的AI对话产品，是AI对话发挥能力的关键。

AI对话对“Her”的向往，也是能留住用户的关键。这种最接近人类的聊天方式，才是打破只有专业人士用Prompt，才能和AI对话产品交互的桎梏。

AI对话还在寻找自己的killer feature

现在的AI对话应用确实有不少花哨的功能。它可以回答我们日常所问，它可以帮我们写情书，甚至还能和它玩角色扮演......

但据《2024年中国移动互联网半年报告》，国内AIGC用户不稳定，AIGC行业人均使用时长同比下滑了23.5%。AI对话类APP功能虽多，却都是一些“花拳绣腿”，获客成果并不理想。

周鸿祎曾指出，通用大模型留存率低的原因主要在于承诺什么都能做的同时，却什么都做不精。也正是因为功能过多过于繁杂，AI对话类APP还没有找到那个让用户欲罢不能的killer feature。

互联网时代，使支付宝、微信、抖音、美团真正杀出重围的，是它们都找到了自己的“杀手锏”。购物支付会想到支付宝，社交聊天会想到微信，闲暇时间会想要看看抖音，“饭来张口”会想到美团外卖......反观AI对话呢？它好像什么都能做，又好像什么都做不好。

目前，国内AI对话产品中，Kimi是较早找到应用场景的。知识高效获取一直都是职场、学生和科研人士的痛点问题，用户们拿到的资料往往都是大段资料，知识获取速度较慢。

Kimi抓住用户这一痛点，主打长文本和文档处理两个功能，能帮用户快速抓取文档重点，取得了还不错的用户体验。据AI数智源发表的8月国内AI榜单来看，Kimi仍以22.85M的数据领先其他家。但是实际上Kimi预训练较弱，模型本身能力并不强。但正是抓住了有效场景，Kimi的数据稳居国内大模型前列。

数据来源：Similarweb

目前其他家大模型，包括豆包、文心等，也都跟进了长文本处理和文档解读功能，能够满足用户日常工作所需。不仅如此，百度专门推出“橙篇”对标Kimi（橙篇提供专业的知识检索和问答、超长图文理解和生成、深度编辑和跨模态自由创作等功能）。这么看来，Kimi曾经的专长也并不显优势了。

而在龙头OpenAI内斗的这些日子里，Anthropic暗暗发力。据 Datos对ChatGPT调用场景的调查数据，编程问题占据了 29%，在所有使用场景中排名第一。Claude 3.5 Sonnet更新的“工坊模式”，强化编码能力，使生成代码速度更快，效率超过之前的GPT-4。编程作为最高频、刚需的AI应用场景之一，给市场带来了机会与收入。

OpenAI不放手编程场景。这次更新的o1模型主打强推理、强编码能力，有网友体验称其代码正确率确实有提升，“以前很少能一次run成功的”。o1还未正式开放，其效果究竟如何还待检验。

Claude 3.5的文本生成能力也在新Prompt“汉语新解”中得到了诠释。Claude于6月24日发布3.5模型，六月底，Claude流量激增135%。

图源：数字生命卡兹克

找到杀手级场景的AI对话产品风光创收，不禁让其他家焦虑了起来，各大AI公司都在绞尽脑汁找办法。

近日的外滩交流会上，阿里发布了“支小宝”全家桶，布局AI生活管家。百度也暗中转变战略，升级文心一言，并更名为“文小言”，定位“新搜索”智能助手。值得一提的是，百度改名的“文小言”，颇有“转战搜索”的意味。9月11日，字节也被爆出布局AI硬件的消息，开发与豆包大模型和豆包APP联动的智能耳机、智能眼镜，探索大模型与硬件结合的赛道。大家都在努力找杀手级场景，形成自己的特色能力。

AI对话现在像是一个天赋异禀但还在青春期的少年，有着无限的潜力，却还不知道如何施展自己的才华，正四处尝试。

但是，似乎行业的共识也正如周鸿祎所表达的，AI对话的未来不在于创造一个通用的超级助手，而在于为每个特定的人类需求打造契合的AI解决方案。也许这才是AI对话类产品，自己被用户新鲜感过后月抛，这一难题的的核心解决办法。

本文来自微信公众号“AI鲸选社”，作者：陈佳惠，编辑：杨晓鹤，36氪经授权发布。

草莓难救被“月抛”的AI对话产品？

9.11还是9.9大？AI界的亘古难题

多模态交互技术不够成熟，距离“Her”实现尚远？

AI对话还在寻找自己的killer feature

推荐体验

相关资讯

AIGC，难救四小龙

iOS 18终于融入AI技术，但外援或许难救掉队的苹果

直播带货、AIGC、短剧，难救连年亏损的遥望科技

上半年巨亏30亿、再曝裁员，AI大模型难“救”商汤

OpenAI或最快今秋推出推理AI产品“草莓”

近期资讯

这座粤东小城，等待出圈

行业观察丨延迟退休正式落定，适老家具终迎大爆发!

AI 美女占领小红书，没那么糟糕

被百度起诉，“四维图新之子”却获滴滴、腾讯、蔚来投资要IPO？

他在 Google 花 7 年攻坚「登月级项目」失败，发出灵魂拷问：机器一定要像人吗？

大咖对谈：科技创新VS耐心资本丨36氪2024产业未来大会

一年狂赚 66 亿美元，比 OpenAI 还吸金的成人网站，为什么拒绝 AI？

中秋节，为什么没人提前订酒店了？

1000个Agent圈地模拟人类社会，北大校友创业AI版「我的世界」

出租率超70%全国第一，五星级酒店为何青睐“顶流”长沙？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响