当前位置：首页|资讯|大语言模型|天工大模型|Vicuna|ChatGPT|Claude

大语言模型综合能力测评报告 2023

作者：InfoQ研究中心发布时间：2023-05-29

大语言模型天工大模型 Vicuna ChatGPT Claude

InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度，分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。另外，本次研究特别关注了技术视角中大模型产品的编程能力，同时也专门设置了关于中文语境的特色测试题目，如方言测试、中文特色推理、对对联等。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知，以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。...【查看原文】

推荐体验

相关资讯

《大语言模型综合能力测评报告 2023》发布

InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度，分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。另外，本次研究特别关注了技术视角中大模型产品的编程能力，同时也专门设置了关于中文语境的特色测试题目，如方言测试、中文特色推理、对对联等。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知，以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。

大语言模型天工大模型 Vicuna ChatGPT Claude

InfoQ研究中心 2023-06-06

大语言模型综合能力测评报告2024

InfoQ 研究中心本研究围绕语义理解、文学创作、知识问答、逻辑推理、编程、上下文理解、语境感知、多语言处理及多模态交互等十大核心领域，对包括 ChatGPT-4、文心一言专业版、通义千问 V2.1.1、Bard2.0、讯飞星火 V3.0、Kimi Chat 网页版、百川大模型 V1.0、智谱清言网页版、360 智脑 4.0 和豆包在内的十款热门模型进行了全面评估，测试题目数量超过 3000 道。

大语言模型编程 ChatGPT 文心一言通义千问

InfoQ研究中心 2024-01-17

InfoQ：大语言模型综合评测报告2023

近日国内与人工智能领域相关的利好政策陆续释放，中央召开的相关会议强调“未来要重视通用人工智能发展，营造创新生态。”《北京市促进通用人工智能创新发展的若干措施（2023-2025 年）（征求意见稿）》围绕五大方向提出 21 项具体措施，包括“开展大模型创新算法及关键技术研究”，“加强大模型训练数据采集及治理工具研发”等，同时面向政务服务、医疗、科学研究、金融、自动驾驶、城市治理等领域拓展应用场景，以抢抓大模型发展机遇，推动通用人工智能领域实现创新引领，中国大模型技术产业迎来了一波前所未有的发展契机，百度、阿

大语言模型人工智能医疗金融

郭太侠 2023-05-31

《2023 大语言模型综合能力测评报告》出炉：以文心一言为代表的国内产品即将冲出重围

事实上，无论是中文创意写作，还是语义理解、中文知识问答，这些题目都主要反应的是大语言模型产品对文字的基础认知和学习能力，而我们从测评结果中清晰的看到，百度文心一言各方面数据表现优异，各项能力评分都位居Top2…

大语言模型文心一言百度

InfoQ 2023-05-29

AI大模型专题：大语言模型能力测评报告2024（附下载）

该报告为《AI大模型专题：大语言模型能力测评报告2024》，共计43页，由极客传媒出品。报告指出，多家企业和机构按照相关规定完成备案和变更手续后，对公众全面开放，标志着大模型发展进入新阶段，加速推动大模型产业化应用。

AI大模型大语言模型

烟树晚雁 2024-01-23

近期资讯

【从零开始】11. LLaMA-Factory 微调 Qwen 模型（番外篇）

本文将从部署开始，详细讲一下如何使用 llamafactory 对开源模型进行指令微调了，并且在微调过程中我是如何一次一次地进行参数调整的，我也跟各位分享一下。

Kida的技术小屋 2024-12-29

如果我是前端面试官-思路汇总篇

本文主要思考下技术面应该如何去面试，既能体现面试官的素质和专业性，又能考察候选人的技术能力和工作经验和项目经验是否匹配。同时候选人也可以通过阅读本文来查漏补缺，揣摩面试官的意图。

牛奶 2024-12-29

开源 Material Design WPF UI 控件库，易用且功能强大

Material Design 是由 Google 开发的一套设计指南，提供统一的设计语言，使用户界面更加直观、美观和一致。

小码编匠 2024-12-29

C# +RTSPClient 实现音视频解码方案

在多媒体应用中，实时传输协议（RTSP）用于流媒体服务，特别是音视频监控系统。通过 C# 和 RTSPClient 库，可以轻松实现简易的音视频解码和播放功能。

小码编匠 2024-12-29

69天探索操作系统-第26天：文件系统结构

1.介绍文件系统结构重点关注目录如何以层次方式组织和管理文件。本综合指南探讨了目录结构、它们的实现和管理技术，这些构成了现代文件系统的架构。 2.目录结构基础目录结构的核心概念：分级组织：文件

电赛小陈找出路 2024-12-29

INFINI Console 指标采集优化

前言在 Easysearch / Elasticsearch / Opensearch 管理系统中，对于不同集群不同指标数据进行采集是一个常规任务。但是采集过程中不仅会对采集系统 CPU 和访问性能

极限实验室 2024-12-29

冰河AL2 LITE震撼登场：500W低功耗，家庭挖掘新选择

#alph# 冰河 AL2 LITE 开箱测评作为冰河（IceRiver）最新推出的服务器之一，AL2 LITE 无疑在市场上引起了不少关注。这款服务器主打高性价比与出色的性能，其定位适合小型矿工和个人矿业爱好者。今天，李依小编将对这款服务器进行开箱测评，深入探讨它的外观、性能和使用体验。一、开箱体验冰河 AL2 LITE 的包装设计简洁而实用。外包装采用坚固的纸盒，确保运输过程中服务器不受损坏。打开包装后，首先映入眼帘的是一台小巧且精致的服务器，所有配件都被整齐地放置在服务器旁边。除了服务器本身，

周17779130177 2024-12-29

飞往俄罗斯的客机坠毁，三大疑点引关注，乌方：俄军或是罪魁祸首

根据俄新社12月25日的报道，一架客机在偏离原本航线数百公里之后，在哈萨克斯坦的阿克套市的郊区坠毁。从当地市民发布在社交媒体上的视频可以看到，客机在触地之后发生爆炸，并形成巨大火球。该客机是一架由巴西航空工业公司制造的190客机。莫斯科时间12月25日早上6点50分，该飞机从阿塞拜疆的巴库起飞，预计8点20在俄罗斯的格罗慈尼降落。机上一共载有67名乘客和5名机组人员。其中15人来自阿塞拜疆、9人来自俄罗斯，两名来自吉尔吉斯斯坦。截止到发稿前，该空难事件已经造成已造成38人死亡，32人幸存。不过值

兵说 2024-12-29

[国学知识]六十甲子阴阳太岁符秘

《六十甲子阴阳太岁符秘》探讨中国传统文化中六十甲子纪年法的秘密。在这里，我们将带您深入了解这一古老纪年体系的奥秘，以及它背后所蕴含的阴阳五行哲学和太岁信仰。内容亮点：文化传承：本专栏旨在传承和普及中国传统文化，让更多人了解六十甲子的历史与意义。知识普及：详细解读阴阳五行理论，以及它们在古代社会生活中的应用。太岁解析：科学介绍太岁信仰，探讨其在民间习俗中的影响，以及如何正确理解太岁符的文化内涵。本专栏内容仅供文化学习和研究之用，不涉及任何迷信活动，也不提倡任何形式的迷信行为。我们致力于提供一个理性

国学大本营 2024-12-29

国美宣布进军汽车行业强势打造创新性汽车流通平台

2024年12月28日，呼唤创新的中国汽车流通领域终于迎来发展新局面。国美车市战略发布会暨生态合作伙伴大会在北京隆重举行。国美车市紧紧围绕“驭变·敢为·共赢——流通新业态共创迎未来”的主题，深度解析当前汽车流通发展困境并给出最优解决方案。商务部、北京市商务局、中国国际贸易促进委员会汽车行业分会、中国汽车流通协会等政府、行业机构领导，众多汽车品牌领导与代表及媒体300多人受邀参会。凝聚多方力量共创流通新业态相关数据预计，2024年全年汽车销售将超过3000万台。与此形成鲜明对照的是，近4年来全国有8000

车务网 2024-12-29

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1