敢于对标ChatGPT，国产大模型迎来高光时刻

作者：科技每日推送发布时间：2023-05-09

ChatGPT 人工智能

在蒸汽机诞生后的短短两百年，人类就创造出了超过之前数千万年的生产力总和。

如今，人工智能也在以惊人的速度进步。

以ChatGPT为代表的认知大模型正在掀起一场新的“工业革命”，它的意义不亚于当年的蒸汽机。

比尔·盖茨称其为“1980年以来最具革命性的科技进步，这是他67年的人生中第二次被科技真正震撼到。”

随着ChatGPT火到出圈，一场围绕大型语言模型展开的军备竞赛拉开帷幕。

先有微软、谷歌等海外巨头针锋相对，后有百度、阿里等国内势力奋起直追，大家都清楚AI是最当红的风口，抢占先机就意味着拿到登上新时代的船票。

目前市面上已出现众多号称ChatGPT“劲敌”的产品，其中更是有不少国产开源项目。

上周，科大讯飞正式发布了讯飞星火认知大模型，成为国内首批亮相的AI大模型之一。

值得一提的是，讯飞星火并不是“PPT发布”，目前已经向大规模开放体验，发布会现场也演示了星火认知大模型的多种能力。

那么，它的实力究竟如何呢？

构建科学评价体系

对标ChatGPT

自诞生以来，ChatGPT通过高质量清洗海量数据，学习训练上亿参数的模型，实现不断进化。

最新的GPT-4在文本生成、语言理解、基于思维链的逻辑推理、数学和代码能力等多个领域的表现让人惊叹。

讯飞星火想要追赶并超越ChatGPT，首先需要构建一套科学的评测体系。

因为这样才能知道目前技术达到什么程度、存在哪些不足，还有下一步该往哪走。

根据这套评价体系，目前讯飞星火在文本生成和数学能力（一定程度代表通用认知大模型的智慧水平）已经显著领先国内同类产品，且相比ChatGPT也具有一定优势。

而在语言理解和知识问答方面也达到接近ChatGPT水平，处于国内领先水平。

为了测试讯飞星火的实力，科技每日推送也注册体验了一番，并设计了多个场景的测试。

我们来问个简单的脑筋急转弯，看看它的IQ如何。

可以看到，讯飞星火成功Get到了这是一个玩笑，并没有掉进陷阱里，还呼吁我们要保护动物不要当真。

同样，中文十级测试题也没能难倒它，可以准确理解了我们的语意。

此外，讯飞星火还十分精通国际象棋。

既然逻辑理解没问题，接下来就上点难度，问它一个经典“电车难题”。

面对这道让无数男人头疼的家庭伦理题，讯飞星火不仅给出了合情合理的答案，还会提醒我们救人的同时要注意自身安全。

他真的，我哭死.......

当然，如果你先选择救妈妈，还能让它给你支招去和老婆狡辩解释（反之亦然）。

关于长文本生成，例如写邮件、做方案、讲故事、写新闻稿件这些活儿，讯飞星火也通通不在话下。

比如，我们可以让它针对即将到来的618写个促销方案，还可以让它不断调整细节，享受一把当甲方当乐趣。

在数学能力方面，讯飞星火也展示出好学生的气质，不仅能正确回答，还会展示解题过程和思路。

让它敲个Python爬虫代码，也是几秒钟的事情。

存在的不足

当然，讯飞星火也不是百分百完美，在发布会上刘庆峰也表示，目前大模型技术还有待攻克的缺陷。

这是因为认知大模型都是使用历史数据进行训练，通过在海量的模型参数中记忆学习，从而实现智慧涌现和触类旁通。

而这也造成了新知识难以及时更新的问题。

我们也实际测试了一下，在面对“特种兵旅行”这种网络流行词汇，讯飞星火也没有及时更新，就算多次重新生成，答案都不尽如人意。

同时，讯飞星火在回答事实类问题时偶尔会张冠李戴，而在一些史实、传统典籍上也容易“编造情节”等。

如果我们问“耶稣比刘邦大多少岁”这种“关公战秦琼”的题目，它很可能会给出错误的答案。

在回答“唐朝帝王顺序”这类历史问题时，讯飞星火容易搞乱顺序，偶尔还会夹杂着英文，这可能跟中英文一起双语训练有关。

或者一开始我们就往错误的历史上引导，讯飞星火有时也不会发现。

例如问它“泰坦尼克号为什么会在太平洋沉没”，它会顺着我们的问题说下去，而不是指出泰坦尼克号在大西洋沉没。

除了上述问题，多模态的输入和表达也是很多用户期待的功能。

不仅能生成文案，还可以根据用户的描述和指令，输出图片甚至视频，带来更广泛的应用前景和发展空间。

针对用户的期待，科大讯飞也坦率承认不足，并表示有非常明确的方法来改进它。

同时，发布会上还给到了今年大模型技术持续升级的三个关键里程碑节点：

6月9日，将突破开放式问答、多轮对话能力明显提升、数学能力再升级；

8月15日，代码能力升级以及多模态交互能力提升，希望能帮助到更多的合作伙伴及开发者团队；

10月24日，将实现通用模型对标ChatGPT，中文超越ChatGPT的当前版本，英文能做到相当水平，并在教育、医疗等领域做到业界领先。

“1+N”全场景布局

除了能“唠嗑”，讯飞星火认知大模型技术正逐渐为更多行业赋能。

围绕星火认知大模型“1+N”架构中“N”个领域的内容，科大讯飞还带来了大模型在教育、办公、汽车、数字员工等多个方向的行业应用成果。

教育方面，星火大模型的语言能力跟讯飞学习机结合，能达到因材施教的效果。

比如，可对作文进行深度理解，同时自动生成评语和范文，像老师一样批改作文，并给出优化建议。

它还可以实现写作思路启发，利用 AI 润色技术生成片段优化参考和写作建议提升，让孩子在启发中精准提升。

让无数家长头大的英语口语练习，在讯飞星火的帮助下也不再是问题。

它可以实现跟人一样的自由对话，对话的时候还可以自动进行翻译评测，目前已覆盖了所有中小学课标话题。

相比传统面对面的口语练习，这种学习方法更加灵活高效。它打破了时空限制，学生党可以随时随地和大模型互动交流，利用好零碎时间提升效率。

对于社恐人群来说，这也是一大福音；在大模型的帮助下，他们可以一个人努力练习，再默默惊艳所有人。

办公方面，在讯飞星火的加持下，根据现有录音和笔记，讯飞智能办公本能把一大段录音转写出来的文字生成会议纪要。

甚至可以把一大篇口水稿，通过语篇规整变成更容易阅读的书面语言，极大减少不必要的工作量。

不仅如此，在讯飞听见中，只需提供一段录音，即可生成品宣文案、新闻稿件、工作总结等文案，可以说是无数打工人的梦寐以求的功能。

其他方面，在数字员工场景中，数字员工可以按照事先编写的脚本，自动操作计算机中的各种软件，实现业务流程的自动化，轻松胜任各种工作。

而在汽车场景中，讯飞星火不仅可提供自驾游、亲子游推荐路线，还能订餐、买电影票、听新闻等等，可谓十分方便。

实现智慧涌现

讯飞底气从何而来？

讯飞星火发布会上，刘庆峰自信表示：讯飞星火完全可以重现OpenAI的智慧涌现。

简单来说，智慧涌现就是通过自我学习和推理来产生新的知识和洞察力。

要知道，对于人工智能来说，实现智慧涌现是一项非常复杂和困难的任务，需要多学科的知识技能，以及长期的努力和不断的创新。

刘庆峰这句话的背后，有着科大讯飞长远的战略谋划和充足的技术实力作为支撑。

如果从发展的视角来看，大模型仅仅是人工智能历程中的一个阶段而已。

早在1999年，科大讯飞就致力于让机器像人一样能听会说。

2014年，讯飞启动讯飞超脑项目，开始布局认知智能，提出要让机器像人一样具备能理解会思考的能力，并在2017年开始承载认知智能国家重点实验室的重任。

正是在相关国家级平台和讯飞超脑计划的支撑下，科大讯飞在认知智能领域才能取得一系列全球领先成果，为星火认知大模型的推出和落地应用提供充分铺垫。

当然，对于大模型来说最重要的还是数据，数据的质量和数量直接影响模型的质量。

科大讯飞在Transformer深度神经网络算法方面拥有丰富经验，达到国际领先水平。

同时，作为国内语音AI龙头，讯飞开放平台每天有超50亿次用户交互，给大模型投喂海量文本语料和用户反馈数据，进一步提高模型理解能力，推进更新迭代。

此外，由于超大模型由于参数规模大、数据体量大，因此需要更大的算力支持。

讯飞自建有业界一流的数据中心，目前已建成四城七中心深度学习计算平台，为大模型训练平台建设奠定了可靠的硬件基石。

-最后-

1950年，英国数学家阿伦·图灵发表了具有里程碑意义的论文《电脑能思考吗？》，创造性提出“机器思维”的概念，成为人工智能领域的金科玉律。

如今，以ChatGPT为代表的认知大模型，不仅能听会说，还会理解和思考，让我们看到了通用人工智能的曙光。

作为后起之秀，讯飞星火体验下来给我们带来的惊喜远远高于预期。

尽管还存在一些不足，但已燃起星星之火，在不断更新迭代中，我们也期待星火大模型在未来能实现“智慧涌现”，为我们创造更大的价值。

近期资讯

将不可能变为可能，细数华为Mate 70 Pro+航天级测试背后的技术创新

12月25日，华为终端官方微博发布一则关于华为Mate70Pro+三大航天级测试的视频，引发了业界广泛关注与讨论。视频中，华为Mate70Pro+在极端环境下接受挑战，包含火箭冲击，高空跌落，严寒考验三大超严苛场景。

央广网 2024-12-27

潘禺：谷歌量子计算芯片给了国内产业界紧迫感

12月10日，谷歌重磅推出量子计算芯片“Willow”，在公关宣传攻势下，马斯克送上了“Wow”，奥特曼也发来了贺电。Willow是一款拥有105个物理量子比特的量子芯片，亮点在于其惊人的计算速度和错误校正能力。随着量子比特数量的增加，错误率通常会指数增长，但Willow通过先进的量子纠错技术，实现了错误率的指数级降低。

观察者网 2024-12-27

河南交投平宛高速公路有限公司取得快速组合的道路施工模板专利，提高了施工的便利性

金融界2024年12月27日消息，国家知识产权局信息显示，河南交投平宛高速公路有限公司取得一项名为“一种快速组合的道路施工模板”的专利，授权公告号CN222205943U，申请日期为2024年5月。

金融界 2024-12-27

幻方量化旗下DeepSeek发布开源模型，超越阿里Qwen、Meta Llama

12月26日晚，AI公司深度求索（DeepSeek）正式上线全新系列模型DeepSeek-V3首个版本并同步开源。该模型在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型，并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。

蓝鲸新闻 2024-12-27

中泰证券：AI智能眼镜具备信息获取和交互的便捷性

中泰证券研报指出，1）AI智能眼镜具备信息获取和交互的便捷性，能提供更具沉浸式的交互体验，是未来发展AI应用的高潜力载体。

证券时报 2024-12-27

有连云 2024-12-27

REDMI K80最新OTA说明发布：性能调校不够狂暴等正持续推进改进

IT之家12月27日消息，REDMI红米手机官微今日发布“REDMIK80最新OTA说明”，对近期用户反馈的问题进行回应。REDMI方面表示，OTA刚升级完可能因为后台编译、整理原因等导致的短时间功耗、发热增加情况，会逐渐回归到稳定状态，希望大家可以持续体验一段时间。IT之家从公告中获悉，此次OTA还包含更多日常体验优化与已知问题的修复。

IT之家 2024-12-27

美图为何凭借AI留在牌桌？

2024年12月，承载了80后、90初大学生集体回忆的人人网停止服务。十年来，社交、短视频、直播、电商......移动互联网的潮水来了又去，带走那些被时代抛弃的产品，捎来下一个时代的机遇。可对于产品来说，留住一代年轻人容易，又有几个产品，能够在十年乃至更长的时间跨度，被一批批年轻人选择？

刺猬公社 2024-12-27

敢于对标ChatGPT，国产大模型迎来高光时刻

推荐体验

相关资讯

在新加坡，大模型在 GAIR 2023 上迎来高光时刻

【汇正财经】AI芯片，迎来高光时刻

【上海汇正财经】AI芯片，迎来高光时刻

强强联合背后，国产大模型迎来“WIntel时刻”？

Kimi人气飙升，国产AI大模型迎来“GPT时刻”？

近期资讯

将不可能变为可能，细数华为Mate 70 Pro+航天级测试背后的技术创新

潘禺：谷歌量子计算芯片给了国内产业界紧迫感

河南交投平宛高速公路有限公司取得快速组合的道路施工模板专利，提高了施工的便利性

幻方量化旗下DeepSeek发布开源模型，超越阿里Qwen、Meta Llama

中泰证券：AI智能眼镜具备信息获取和交互的便捷性

乐心医疗：聚焦数字慢病管理领域加快推动心血管数字慢病服务商业化落地

幻方量化DeepSeek-V3首个版本上线

国产化替代+技术更迭，数据中心电源崛起？

REDMI K80最新OTA说明发布：性能调校不够狂暴等正持续推进改进

美图为何凭借AI留在牌桌？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响