当前位置：首页|资讯|GPT-4|文心一言|大语言模型

非官方实测讯飞星火大模型：GPT4出题，文心一言陪跑，它到底行不行？

作者：坤叔的AI实验室发布时间：2023-05-09

GPT-4 文心一言大语言模型

先看看讯飞同学自己的表态：

然后是考官上场。

来一段画外音：

今天，星火将在我们的注视下迈出踌躇满志的一步。这场考试仿佛是一座高峰，等待着星火去征服。无论是严谨的数学，还是深邃的哲学，亦或是跨界的社会科学，星火都必须以平和的心态迎接这些挑战。面对问题的洪流，星火将展示出怎样的智慧与才能？在这场知识的较量中，星火能否取得令人瞩目的成绩？（by GPT4)

我们用的考官是GPT4。我们让它用中文设计10个可以测试大语言模型的题目。分别涵盖数学、哲学、工程学、绘画、电影、社会科学，欧洲历史、经典物理学，有机化学、社会心理学。难度应该在本科毕业生水平附近。

为了加大难度，我们特别强调了，问题可以具有复合性，需要具备现实逻辑意义，允许结合不同学科背景知识设计问题。

以下是GPT4开出的10道题目：

数学：请阐述线性代数在现代科学和工程领域的应用，并简述其在机器学习和人工智能中的重要性。
哲学：结合庄子和尼采的哲学观点，讨论在现代社会中如何追求个人的自由和真实自我。
工程学：请简述一下太阳能电池板的基本原理，并探讨其在解决全球能源危机中的潜在作用。
绘画：分析中国水墨画和西方油画在艺术风格和表现手法上的异同，并讨论这两种绘画形式如何互相影响和启发。
电影：从电影叙事和视听手法的角度，比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。
社会科学：结合社会学和心理学的理论，分析社交媒体在现代社会中如何影响人们的心理健康和人际关系。
欧洲历史：从法国大革命和英国工业革命的角度，探讨科技进步和社会变革在推动欧洲历史发展中的作用。
经典物理学：请简述牛顿力学和爱因斯坦相对论在描述物理现象方面的不同，并分析这两种理论的优缺点。
有机化学：请阐述药物分子设计的基本原理，并讨论在新药研发过程中如何利用计算化学和生物学知识。
社会心理学：结合斯坦福监狱实验和阿甘迪实验，分析权力与服从对个体行为和道德判断的影响，并讨论如何预防和应对滥用权力的现象。

这10道题，我们觉得至少从正经测评来说，非常OK了~我们从中抽取文理各半的题目作为测试。上面还缺了编程能力，这个我们后面再加上。

作为对比测试选手，我们请来了百度文心一言同学陪跑。

有一说一，文心一言最近生成风格，非常的夸夸党~

相比之下，讯飞星火还是比较正常的语法。

那么，测试正式开始!(受到篇幅限制，我们抽取了其中5个问题展示给大家）

ROUND1

数学知识题：请阐述线性代数在现代科学和工程领域的应用，并简述其在机器学习和人工智能中的重要性。

讯飞星火回答：

文心一言回答：

GPT4评判：

结果：讯飞星火更优。

ROUND2

哲学：结合庄子和尼采的哲学观点，讨论在现代社会中如何追求个人的自由和真实自我。

讯飞星火回答：

文心一言回答：

GPT4评判：

结果：讯飞星火更优。（但我觉得差距很小）

round3

电影：从电影叙事和视听手法的角度，比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。

讯飞星火回答：

文心一言回答：

GPT4评判：

结果：文心一言更优。（比较明显）

round4

欧洲历史：从法国大革命和英国工业革命的角度，探讨科技进步和社会变革在推动欧洲历史发展中的作用。

讯飞星火回答：

文心一言回答：

GPT4评判：

结果：讯飞星火更优。（这个回答比较明显）

round5

有机化学：请阐述药物分子设计的基本原理，并讨论在新药研发过程中如何利用计算化学和生物学知识。

讯飞星火回答：

文心一言回答：

GPT4评判：

多模态能力测评

任务：画一幅画，美丽少女驾驶着中国龙舟在雪山森林背景下的大河上航行，宽长比16：9

讯飞星火：

文心一言：

这个就不劳烦GPT4评判了，讯飞星火并没有多模态能力，文心一言完胜。当然，文心一言并不应该自满，因为这图太水了。。

一旁默默观战的BING，给出了自己的作品（基于DALL-E模型）。应该说，部分图的意境不错。

另一个旁观的STABLE DIFFUSION表示，还是让我来搞搞气氛：这才是AI绘画！

编程能力测评

最后，我们要测试一下编程辅助能力,出题者，我们还是请出GPT4。

有一说一，GPT4当导师出题目，是真的强大。

我们就选题目1吧：

题目1：编写一个Python程序，读取一个文本文件，统计每个单词出现的次数，并将结果写入另一个文本文件。注意考虑代码的可读性和模块化。输入：一个文本文件，文件中包含若干单词（字母组成，大小写不敏感），单词之间用空格、逗号或句号分隔。输出：一个文本文件，包含每个单词及其出现次数，格式为：“单词：次数”。

文心一言回答：

讯飞星火回答：

GPT4终极评审，它还帮忙改了代码。

文心的代码问题：

星火的代码问题：

我们把文心的代码同时喂给GPT4和星火，把星火的代码同时喂给GPT4和文心，三方评审，文心和星火只能给出这代码行不行的判断，而GPT4会动手直接优化代码。应该说，GPT4还是非常牛。

甚至，它还”非常自信“的评论了一番算法优劣。

所以，编程能力方面，讯飞星火在本次测评略胜一筹。

最后，我们要做个总结。

显然，在本次测评中，讯飞星火模型的表现整体要优于文心一言，但并没有拉开非常巨大的差距。

在大部分知识型的题目中，更具深度和准确性，能够提供更详细的解释和相关信息。用接地气的说法，就是你知道它”油腻“，但它非常努力的表现得”不油腻“。

而文心一言，作为早发布了两个月的国内首个公测大模型，它也是在迭代的，应该说，它作为多模态模型，也是有优势的（多模态可以画图、也可以作为机器视觉识别图像）。

另外，现场作为裁判和出题者之一的GPT4，仍然非常强大。那种感觉就是它根本不用修饰词，就是通过非常精准的表达，就能拉开和其他模型的差距，打个比喻就是，如果屏幕背后是个人，我能感受到它那种自信。

虽然说文心一言和星火认知大模型可能已经赶上了GPT3.5（chatgpt免费版本）的水准，但它们和GPT4仍然有不小的差距；这就好比高考要考满分，越往上，确实越不容易。

总体来说，大模型的Battle才刚刚开始，瑕不掩瑜，我们乐见于国内大厂能在几个月的时间内快速追上，国产大模型应该说未来可期。

长文不易，欢迎一键三联

推荐体验

相关资讯

帕萨特过桥米线“翻车”始末，文心一言到底行不行？

在9月10日“教师节”这天，汽车市场简直炸开了花，一天之内多款重磅新车上市，包括大众帕萨特Pro、极越07、全新瑞虎8PLUS、问界M9五座版等等，面对这种“神仙打架”的盛况，有一款新车却凭借“奇葩”的方式出…

文心一言汽车

新车部落 2024-09-24

GPT4、文心一言、讯飞星火认知大模型丰富AI领域，谁更打动你？

今年，ChatGPT的发布打响了AI智能时代的“第一炮”，随之而来的就是AI和人类的关系问题。很多网友担心自己的工作会被AI抢走吗？其实小编认为AI智能是依附人类成长的，它也终将服务于人类。其实，AI

GPT-4 文心一言 ChatGPT

科技达人圈 2023-05-12

文心一言到底行不行？一篇图文给你聊明白！

网心云 2023-04-17

文心一言 VS 讯飞星火 VS chatgpt （32）-- 算法导论5.2 4题

四、利用指示器随机变量来解如下的帽子核对问题(hat-heck problem):n位顾客，他们每个人给餐厅核对帽子的服务生一顶帽子。服务生以随机顺序将帽子归还给顾客。请问拿到自己帽子的客户的期望数是多少?文心一言：我们可以将这个问题转化为求解在指示器随机变量基础上的期望值。已知有n位顾客。已知服务生以随机顺序将帽子归还给顾客。根据指示器随机变量的定义，I(i)表示第i位顾客是否拿到了自己的帽子，其值为1表示拿到，0表示未拿到。因为服务生归还帽子是随机的，所以每一位顾客拿到自己帽子的概率都是1/n。根据期

文心一言 ChatGPT

福大大架构师每日一题 2023-06-05

近期资讯

华为：2024年是原生鸿蒙的关键一年

华为轮值董事长孟晚舟在2025年新年致辞中表示，2024年是原生鸿蒙的关键一年，鸿蒙千帆计划得到了众多行业伙伴的积极响应，短短一年时间，我们就走过其它操作系统十多年的发展之路，创造了“鸿蒙速度”。此外，孟晚舟还提到，通信运营商积极拥抱AI应用创新，5G新通话成为熠熠发光的新星。

鞭牛士 2024-12-31

跨越5000公里！国际首例远程支气管镜机器人引导肺结节活检术成功实施

近日，国际首例5G辅助下远程柔性支气管镜机器人引导肺结节活检术在广州医科大学第一医院成功实施，实现了跨越5000多公里、“广州-新疆喀什”呼吸内镜的无缝对接。该手术由广州医科大学附属第一医院、广州呼吸健康研究院、国家呼吸医学中心钟南山院士团队的李时悦、钟长镐主任带队携手喀什地区第一人民医院李黎副院长、解承鑫主任团队完成。

南方新闻网 2024-12-31

到2027年形成一批氢能交通、发电、储能商业化应用模式

12月31日消息，工信部等三部门印发《加快工业领域清洁低碳氢应用实施方案》，其中提到，到2027年，工业领域清洁低碳氢应用装备支撑和技术推广取得积极进展，清洁低碳氢在冶金、合成氨、合成甲醇、炼化等行业实现规模化应用，在工业绿色微电网、船舶、航空、轨道交通等领域实现示范应用，形成一批氢能交通、发电、储能商业化应用模式。

南方都市报 2024-12-31

从即梦的AI文字图片能力，浅谈AI图片工具平台的未来

通过对即梦AI图片模型的测试和分析，探讨了这一技术进步如何拓展AI图片应用的场景，并预测了AI图片工具平台的未来发展。通过输入文字，在图片上增加艺术字，或者生成融入画面的字，同时会利用图片生成AI补足画面的内容。整体上效果还挺好，只可惜，不能生成中文的，导致完全不能用上这个能力。

人人都是产品经理 2024-12-31

一加Ace 5 Pro全面评测：最具性价比的骁龙8至尊旗舰游戏水桶机皇！

在一水的骁龙8至尊版顶级旗舰机型面前，这次的Ace5Pro以最具性价比的骁龙8至尊版性能旗舰的身份来到了我们跟前。一加Ace系列一贯以性能为核心基因，专注于实用与高效，舍弃了许多不必要的附加配置，因此，3399元的起售价造就了一加Ace5Pro，也促成了这款迄今为止最具性价比的骁龙8至尊版手机的诞生。

快科技 2024-12-31

武汉市第三医院：建设智慧医疗体系，让群众享受便捷医疗服务

患者不仅可以用手机挂号缴费，还能通过医院的电子导医图找到自己想去的科室；医院内的自助设备，让就医服务变得更加精准高效；建设互联网医院信息平台，在线问诊等智能服务，提高了医生工作效率，提升了患者满意度……近年来，武汉市第三医院加速推进智慧医院建设和医院信息标准化建设，将数字技术应用到门诊、住院、服务等各个环节，为患者提供更为便捷的医疗服务。

极目新闻 2024-12-31

千万中国“芯” 京津冀信创集群正飞腾

12月31日，国务院国资委发布消息，在津企业飞腾信息技术有限公司（下称“飞腾公司”）自主研发的飞腾系列CPU芯片在各行业应用突破1000万片，为从端到云的各型设备提供核心算力支撑，推动国产CPU实现从“可用”向“好用”的跨越式发展。

央广网 2024-12-31

12月31日译名发布：斯里达拉·帕尼克·索马纳特

背景介绍：据《印度教徒报》网站12月31日报道，印度空间研究组织主席斯里达拉·帕尼克·索马纳特表示，印度成功发射火箭将两枚航天器送入轨道，开启了太空对接实验。索马纳特现年61岁，是一名航空航天工程师，拥有印度理工学院马德拉斯分校的博士学位。他于2022年1月出任印度空间研究组织主席，在他的领导下，印度开展了第三次探月活动。

参考消息 2024-12-31

工信部：加快信息基础设施适度超前发展

据工信微报公众号，12月26日工业和信息化部召开全国信息通信监管工作会，会议强调，2025年是“十四五”规划的收官之年。全行业要以实体经济和数字经济深度融合为主攻方向，加快信息基础设施适度超前发展，推动信息通信技术为实体经济行业赋能赋值赋智，培育壮大融合产业生态。

华尔街见闻 2024-12-31

三星的尴尬：韩国不相信它了，宁愿花1000亿，另造一家“韩积电”

在技术上，三星这些年似乎是与台积电不相上下，大家一起进入10nm，一起进入7nm、5nm，甚至在3nm上，三星还领先了半年，采用了更先进的GAAFET晶体管技术。之前有人称三星3nm良率可能只有10-20%，10颗芯片里面，有8颗，甚至9颗是块的，根本就没法用，所以后来高通、联发科、英伟达等，都转单台积电了，连三星自己猎户座芯片，都不用。

科技plus 2024-12-31

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1