当前位置：首页|资讯|大语言模型|编程|ChatGPT|文心一言|通义千问

大语言模型综合能力测评报告2024

作者：InfoQ研究中心发布时间：2024-01-17

大语言模型编程 ChatGPT 文心一言通义千问

InfoQ 研究中心本研究围绕语义理解、文学创作、知识问答、逻辑推理、编程、上下文理解、语境感知、多语言处理及多模态交互等十大核心领域，对包括 ChatGPT-4、文心一言专业版、通义千问 V2.1.1、Bard2.0、讯飞星火 V3.0、Kimi Chat 网页版、百川大模型 V1.0、智谱清言网页版、360 智脑 4.0 和豆包在内的十款热门模型进行了全面评估，测试题目数量超过 3000 道。...【查看原文】

推荐体验

相关资讯

大语言模型综合能力测评报告 2023

InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度，分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。另外，本次研究特别关注了技术视角中大模型产品的编程能力，同时也专门设置了关于中文语境的特色测试题目，如方言测试、中文特色推理、对对联等。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知，以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。

大语言模型天工大模型 Vicuna ChatGPT Claude

InfoQ研究中心 2023-05-29

《大语言模型综合能力测评报告 2023》发布

InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度，分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。另外，本次研究特别关注了技术视角中大模型产品的编程能力，同时也专门设置了关于中文语境的特色测试题目，如方言测试、中文特色推理、对对联等。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知，以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。

大语言模型天工大模型 Vicuna ChatGPT Claude

InfoQ研究中心 2023-06-06

AI大模型专题：大语言模型能力测评报告2024（附下载）

该报告为《AI大模型专题：大语言模型能力测评报告2024》，共计43页，由极客传媒出品。报告指出，多家企业和机构按照相关规定完成备案和变更手续后，对公众全面开放，标志着大模型发展进入新阶段，加速推动大模型产业化应用。

AI大模型大语言模型

烟树晚雁 2024-01-23

《2023 大语言模型综合能力测评报告》出炉：以文心一言为代表的国内产品即将冲出重围

事实上，无论是中文创意写作，还是语义理解、中文知识问答，这些题目都主要反应的是大语言模型产品对文字的基础认知和学习能力，而我们从测评结果中清晰的看到，百度文心一言各方面数据表现优异，各项能力评分都位居Top2…

大语言模型文心一言百度

InfoQ 2023-05-29

InfoQ：大语言模型综合评测报告2023

近日国内与人工智能领域相关的利好政策陆续释放，中央召开的相关会议强调“未来要重视通用人工智能发展，营造创新生态。”《北京市促进通用人工智能创新发展的若干措施（2023-2025 年）（征求意见稿）》围绕五大方向提出 21 项具体措施，包括“开展大模型创新算法及关键技术研究”，“加强大模型训练数据采集及治理工具研发”等，同时面向政务服务、医疗、科学研究、金融、自动驾驶、城市治理等领域拓展应用场景，以抢抓大模型发展机遇，推动通用人工智能领域实现创新引领，中国大模型技术产业迎来了一波前所未有的发展契机，百度、阿

大语言模型人工智能医疗金融

郭太侠 2023-05-31

近期资讯

字节跳动拟斥资70亿美元从中国以外地区购买NVIDIA芯片

快科技12月31日消息，字节跳动在AI领域的投入还在加大。据报道，虽然美国极力阻止中国企业获得尖端芯片，但中国互联网巨头字节跳动仍然会想办法通过各种渠道购买并继续使用NVIDIA最先进的AI芯

朝晖 2024-12-31

国产首次！大型甲醇双燃料船甲醇加注成功

快科技12月31日消息，据“中远海运”官微发文，中国船燃江苏公司在扬州中远海运重工有限公司为其承建的国内首制16000TEU甲醇双燃料集装箱船成功加注甲醇燃料150吨。此次加注标志着我

鹿角 2024-12-31

西部省份第一次市市通高铁！350公里时速自主投资

12月30日，南珠高铁南玉段正式开通运营，广西省14个设区市全部由此实现市市通高铁，也是唯一达成这一成就的西部省份。南珠高铁是是广西自主投资建设的首条设计时速350公里的高速铁路，其中南玉

上方文Q 2024-12-31

全球首款AirPump超便携冲牙器欧可林A10氧气啵啵冲牙器评测

一、前言：从市场需求看冲牙器的演变还记得当年的冲牙器吗？那些大家伙简直就是口腔里的“消防水龙”，虽然能冲掉牙缝里的残渣，但对敏感牙龈来说，简直是折磨。早期的冲牙器，

东泽 2024-12-31

台积电2nm将在2025年如期量产：iPhone 17错失首发

据报道，台积电已于竹科宝山厂试产2nm制程约5000片，相关进展顺利，可望如期量产，后续高雄厂也将跟进量产2nm。台积电此前在法说会上提到，2纳米制程技术研发进展顺利，装置性能和良率皆按照计

建嘉 2024-12-31

100％自主指令集！龙芯CPU迈出开放重要一步

龙芯中科采用了完全自主的LoongArch龙架构指令集，因此软硬件适配工作更加繁重，今年以来已适配1100多款软件。为了更好地推进生态合作，龙芯生态平台（www.loongeco.cn）现已正式上线，面向龙

上方文Q 2024-12-31

哈尔滨酒店房价翻倍破千元上热搜网友抱怨：10分钟涨560元

快科技12月31日消息，据媒体综合报道，近期，随着哈尔滨冰雪大世界开园，这座以冰雪王国为主题的城市再度成为冬日里的顶流。伴随哈尔滨的热度越来越高，当地的酒店、民宿市场也随之疯狂起来。

秋白 2024-12-31

双闪作暗号两男子天桥上直播拍摄汽车：公路成走秀舞台

不少博主直播为了流量无所不用其极，居然玩到了大马路上，影响了正常交通通行。浙江台州交警12月24日晚接到举报，称中心大道宝龙广场天桥附近有人通过视频平台直播拍摄汽车，严重影响该路段的

随心 2024-12-31

AMD Navi 48显卡确认支持AV1编解码：Navi 44遗憾未能跟进

快科技12月31日消息，据媒体报道，在即将举行的CES 2025上，AMD预计将发布RDNA4架构显卡，首次放弃旗舰显卡，只有高端核心Navi 48、主流核心Navi 44。其中Navi 48芯片将用于即将推出的Radeon

黑白 2024-12-31

电影《射雕英雄传》六大人物海报公布：郭靖、黄蓉妆容确定

快科技12月31日消息，今日，电影《射雕英雄传：侠之大者》正式发布人物海报。在这款海报中，各路英豪齐聚一堂，各显神通。除了由肖战饰演的郭靖与庄达菲扮演的黄蓉这对经典搭档外，还包括了欧

随心 2024-12-31

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1