被称为“国产最强”，科大讯飞的星火AI大模型有点东西

作者：微果酱发布时间：2023-05-21

科大讯飞 AI大模型

科大讯飞的「星火」认知大模型（以下简称“星火”）在推出之际，便高调宣称对标ChatGPT。那么星火究竟到了什么水平？足够叫板AI赛道的霸主吗？

出品 | 微果酱（wjam123456）

作者 | 陈出木

在此前测评百度文心一言的文章评论区，有小伙伴表示，星火的“使用效果不错”。

星火是科大讯飞经过5个月时间研发出来的大模型，在5月6日的发布会上正式面世。在国产大模型中，星火算不上首发玩家，科大讯飞的知名度也没有其他大厂们高，却少见敢公开对标ChatGPT的。

果酱妹这不就给大家火速安排了一期实测，看看相比名声在外的ChatGPT和文心一言，星火到底好不好使。

01#

如何正确打开星火？

打开星火的官网（https://xinghuo.xfyun.cn/），登录并点击“申请注册”，等待官方审核通过即可体验。

有一说一，相比文心一言的部分内测申请能卡上一个月，普遍反馈星火的审核速度很快，果酱妹在注册申请后一个半小时就通过了审核。

进入星火的界面，对话框和其他模型相差无几。

对比连色调都有些类似的文心一言，星火的左边栏有“纯净”和“沉浸”两种模式，可以将界面主题色调整为蓝色和黑色。但仅能调色的功能和能通过修改模式调整回答风格的Bing相比，似乎落于下风。

在星火的右边栏还有四个导航按钮，包括使用指南、意见反馈、指令推荐和直播回看四个功能。其中，点击“指令推荐”，可以看到星火根据行业和应用场景不同，准备了常用的指令集合，可以降低用户通过AI对话来获取想要答案的门槛。

如果用户找到合适的指令，可以直接点击“执行”跳转提问对话。不过，果酱妹在使用过程中，发现只有前面第一行的指令能够如此操作，下方标注了“编辑执行”的指令，则需要复制并人工切换页面进行操作。

此外，星火也和文心一言一样提供了模板功能，在对话框输入“/”即可选择相应问题模板，就模板数量而言，星火略胜一筹。

02#

星火会是国内版ChatGPT吗？

在星火的发布会上，官方自信表示，

中文领域已在文本生成、知识问答、数学能力3个维度超越ChatGPT，并将于10月24日在中文上超越ChatGPT，在英文上达到跟它相当的水平。

那么，星火到底能不能行？

1、文本生成

对于新媒体人来说，文本生成功能是一个重要辅助。所以，果酱妹选择把今天的选题交给星火试试手。

尽管提问中出现了错别字，但并不妨碍星火识别问题并作答，生成的文章基本通顺，连接词、过渡句也都不缺，甚至兼顾了“风格生动有趣”的需求。

果酱妹又对这篇文章提出了细化的需求，但星火生成的是一篇步骤完善的报告，需要再次引导才能转化成文章。

而和其他AI大模型一样，星火也难以与时俱进，对网络热点或热梗都不能很好地理解并响应。比如面对分析最近走红的“挖呀挖”“泰裤辣”等热点事件，星火的回答可谓无中生有，除了结构，通篇离题。（用AI来追热点的梦碎了）

果酱妹还测试了星火的短篇文案生成能力。就朋友圈文案和小红书文案的生成情况来说，需要有更强个人主观色彩的朋友圈文案表现并不能让人满意，而商业化更重些的小红书文案则相对良好。但对于做客服或运营的小伙伴来说，星火还是能胜任“小助理”的角色的。

短视频脚本也能生成，但仍需要人工进行引导、调整、润色。

而到“藏头诗”环节，星火就失灵了。无论果酱妹如何更换藏头的关键词，星火一意孤行，坚持不按照传统的藏头诗形式作答。或许是因为星火并未接受过这方面的训练，其并不能正确理解“藏头诗”的意思。

当果酱妹指出星火的错误之后，AI认错但胡说八道的本能再次出现。显然，在传统文化方面，文心一言还是领先了一些距离的。

除了作文，星火在生成邮件方面的表现大致及格，会根据收件人是好朋友还是老板，转变邮件的措辞风格。但相对来说，星火更擅长工作类型的邮件，而涉及情感因素的邮件仍然比较生硬。

可以说，星火在文本生成方面的能力是能超过及格线的，对问题及提问意图都能够做出相对正确的理解判断，并生成基本合格的答案。但星火也有AI的通病，无法处理主观性太强的内容，及训练不充分的传统文化内容。

2、知识问答

果酱妹首先向星火提问了曾经难住文心一言的脑筋急转弯——能否把大象放进冰箱。星火理解了问题的本质并轻松解决，答案和Bing类似。

但除了这种非常经典的问题，星火并不能够回答出相对少见的脑筋急转弯问题，即便这些问题对于人类小朋友来说并不难。

此外，星火在音乐方面暴露了短板。面对果酱妹提出的找歌和介绍乐队的需求，星火出现了编造答案的的情况。且不论问题，其给出的答案中，事实错误包括歌曲《妈妈的吻》并非由李玟演唱，The Traveling Band这支乐队和乐手在百度暂时查无此人等。

当然，如果回归到相对常规的问题，星火还是能够做好的，诸如腰疼的原因和应对、用PPT制作动画的步骤等生活工作类型的问题。

可见，星火或许还是太年轻了，接受的训练和数据库的广度都存在不足，导致其在知识问答方面有巨大短板。就这方面而言，具备搜索引擎业务的百度文心一言和微软Bing显然有更大的优势。

3、数学能力

鉴于此前在文心一言和Bing上都因为数学碰过壁，果酱妹对于星火的数学能力其实并没有抱非常大的期待。结果也不出预料地翻车了，前两者没有解决的问题，星火也没能做出来。

但如果换成《孙子算经》上记录的鸡兔同笼问题，星火又可以了。

甚至包括鸡兔同笼问题的变式，星火也能够解出正确答案。

经过几次测试，星火的数学能力大约相当于小学生水平，初中及以上的题目基本都以失败告终。（问AI还不如问更专业的XX搜题）

03#

写在最后

近日发布的中文通用大模型综合性评测基准SuperCLUE，其评测与排名的结果显示，国产大模型中，科大讯飞研发的星火认知大模型总排名第三，国内排名第一。

单看图表，星火和文心一言差距极大。但一番测试下来，我们不难发现，AI的优势和毛病，星火其实一个不落。

在交互方面，星火更类似于ChatGPT，不像文心一言那么生硬，脾气也更好一点。而回归业务能力，星火和文心一言其实差不多，日常的都能做，但难度一加码就翻车，热点热梗跟不上，并且都是数学不好的偏科生。

当然，文心一言还年轻，星火更是在初生期，我们需要给国产大模型更多的耐心和时间。仅就当前阶段来说，它们已经能够在生活工作中发挥一定的辅助作用，至于如何扬长避短，就是人类需要做的事情了。

这也意味着，AI工具普及已经在潜移默化中开始了，我们不应该成为最后知道的那一批人。

被称为“国产最强”，科大讯飞的星火AI大模型有点东西

推荐体验

相关资讯

科大讯飞发布讯飞星火认知大模型

科大讯飞：以技术引领未来，国产ChatGPT“星火认知大模型”上线测试

科大讯飞推出讯飞星火认知大模型V3.0

国产AI崛起！科大讯飞星火大模型数学能力已领先ChatGPT

整体超越GPT-4 Turbo，科大讯飞带来最强国产大模型

近期资讯

如何用WPS AI提高工作效率

这五年，我学这么多东西再没有高学历背景下，有没有意义

一起来看一下通过类模板将二叉搜索树封装起来！

UI自动化测试之：自动获取元素定位技术哪家强

《手把手教你》系列基础篇之（一）-java+ selenium自动化测试-环境搭建（上）（详细教程）

gozero项目日志收集与配置实战

搭建Nestjs+TypeORM+TS服务端应用架构

基于大模型技术构建的 GitHub Assistant

《手把手教你》系列基础篇之（二）-java+ selenium自动化测试-环境搭建（下）基于Maven（详细教程）

Android图形框架之SurfaceComposerClient 提交事务过程

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响