做项目管理试题：看国内4家大模型究竟哪家强？

作者：书圈发布时间：2024-02-29

未来，不仅软件研发靠大模型（LLM）驱动，而且项目管理也会靠LLM驱动。暂时就不演练LLM是如何帮忙进行项目管理的，而是先考考它们，看看能否通过考试。如果通过了考试，我们就可以录用它们来参与我们的项目管理。

我选了两组项目管理（偏敏捷研发范式）的试题，一组相对简单的6个试题，找几个人类项目经理（或Scrum Master）来做或讨论，他们的意见比较一致，即缺少争议；另一组题目相对较难的6个试题，人类项目经理做的时候很容易做错，而且大家讨论时，意见也不一致。

然后，我选了国内流行的四大模型的聊天工具：智谱清言、百度文心一言、讯飞星火认知大模型、阿里通义千问，让它们同台竞技。避免影响，在它们竞技完之后，我再构造智能体，将敏捷项目实践、PMBOK等文档作为知识库导入智能体，我还特别特别注意，不导入试题一类的文档，只灌输十个左右的知识文档。

1. 第一组6个较容易的试题，测试四大模型

为了减少篇幅，在这里就不把每个试题的答案都贴出来，每个大模型贴出一个（而且是不同的题目），正好让大家也大致了解6个什么样的试题。

1）智谱回答的第1题，结果正确，而且先给出答案，再做解析，回答规范、清晰。

2）文心一言回答的第2题，结果正确，而且进行了正确的解析，逻辑合理，最后给出答案。

3）讯飞星火回答的第3题，结果正确，但没有给出解析。

回答第4个问题时，没有给出答案（算错），虽然说了一番道理。

4）通义千问回答的第5题，结果正确，也给出了正确的解析，只是回答不够规范。

5）在两组题目都回答之后，我构建了智谱清言智能体“全才项目经理”，它回答的第6题，结果正确，而且之前智谱清言chaGLM回答是错误的：

下面是智谱清言chaGLM回答，答案是错误的，对环境理解不对，这是测试环境，而不是生产环境。

第一组题目做下来，它们的成绩如下，文心一言和智能体得满分，胜出。

2. 第二组6个较难的试题

1）智谱回答的第1题，答案错误，正确答案是C，文心一言和星火答对，而通义千问干脆把A/C都放上（我就算它半对）。

文心一言正确的回答。

通义千问的半对（机智吗？）回答，A是优先的，错的概率更大。也说明这题的选择是比较困难的。两个模型加上智能体都选A（3:2，错的概率大），题目没出好？

2）文心一言回答的第2题，居然答对了（A），因为另外3个大模型都答错了（都给出B），此处必须给文心一言点赞

错误答案，如通义千问的回答

3）讯飞星火和通义千问都答对了第3题（D），也回答得很规范，而另两个模型都答错了（C）。

那么看看智谱清言是怎么错误理解的？

4）通义千问和智谱清言都答对了第4题（D），而另两个模型都答错了（A）。

那么看看文心一言是怎么答错的？

5）第5题可能比较简单（智谱清言都懒得做解析

），4大模型都答对了（B）。

6）第6题可能很难，4大模型都答错了（C），只有智能体答对了（B）。

错误的理解是这样的：

第二组测试的结果：四大模型都没有及格（低于60分），智谱清言分数最低，只答对1/3，其它三个模型不分伯仲。但智能体优势明显，答对5题，得了83.33分。

测试的最后结果出来了

第1名：智能体： 11/12= 91.67分
第2名：文心一言： 9/12 = 75
第3名：通义千问： 7.5/12 =62.5
第4名：讯飞星火： 7/12= 58.3（那两题没给出答案，算它错，so 排在前面）
第5名：智谱清言： 7/12 = 58.3

大家有何看法或评论，欢迎留言。

相关资讯

DoNews 2023-08-31

明查·实验室｜生成式AI核查哪家强？一起来做测试题

在这轮测试中，BingChat鉴别出了全部用英文形式输入的虚假信息，并提供了相对可靠的信源，却无法对超过一半的中文信息作出正确回应。在向搭载了GPT-4技术的ForefrontChat验证关于“瑞士监管机构在…

生成式AI GPT-4

澎湃新闻 2023-05-30

《AI大模型市场研究报告(2023)》：AI大模型竞争，国内厂商哪家强？

中新经纬6月2日电(孙庆阳)伴随生成式AI等基于大模型发展的各类应用爆发，大模型带来的价值进一步升级到人类生产力工具的颠覆式革新，逐渐拉开了通用人工智能(AGI)的发展序幕。通过遴选，报告选择了5家大模型厂商，分别为商汤、百度、阿里巴巴、华为、腾讯，评价模型包含15个一级指标、56个二级指标，对厂商大模型的各个能力进行评估。

AI大模型生成式AI 人工智能 AGI

中新经纬 2023-06-02

做项目管理试题：看国内4家大模型究竟哪家强？

推荐体验

相关资讯

国内大模型AIGC哪家强

rpa公司哪家强？盘点国内13家企业

11家大模型哪家强？我们抢先评测了5家

明查·实验室｜生成式AI核查哪家强？一起来做测试题

《AI大模型市场研究报告(2023)》：AI大模型竞争，国内厂商哪家强？

近期资讯

产品进阶捷径 “六步思考法”

万科×百递云·API开放平台：如何通过物流信息化管理实现交房通知单签收确认？

美团、小红书年度报告，年轻人的两种社死

涨粉百万、带货1000万，“云南恋综”硬控抖音

京东与美团的交集越来越大

我们举办了一场推理模型“年终考试”，最终夺冠的居然是

揭秘SQDCPME：开启企业高效运营新篇章

客户案例 | 纯短信加粉竟然25+%通过率！他们怎么做的？

产品经理如何写出高质量年终报告

退费率 “红线”，教培机构的 “生死劫”？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响