第一个超越ChatGPT的开源模型来了？网友并不买账

作者：机器之心Pro发布时间：2023-07-03

ChatGPT

机器之心报道

编辑：梓文

开源模型真的超过 ChatGPT了吗？

大模型火了起来，每天我们都能看到各种「大」新闻。

今天，又来了个 Big News：新开源的一个大模型超越了 ChatGPT。

具体是什么呢？

OpenLLM 是一系列在极小、多样且高质量的多轮对话数据集上进行微调的开源语言模型。

这两日，作者们更新了该系列模型，并宣称：OpenChat 模型在 AlpacaEval 上获得 80.9% 的胜率；在 Vicuna GPT-4 评估上，性能达到 ChatGPT 的 105%。

也就是上面推特截图中，两位博主宣称的开源模型超越 ChatGPT/GPT-3.5。

OpenLLM 的特色是基于 LLaMA 开源模型，在只有 6,000 个 GPT4 对话的数据集上进行微调，从而达到非常好的效果。

此次更新的模型型号与评审结果如下：

OpenChat：基于 LLaMA-13B，上下文长度为 2048。

在Vicuna GPT-4 评估中达到 ChatGPT 分数的 105.7% 。

在 AlpacaEval 上达到 80.9% 的胜率。

OpenChat-8192：基于 LLaMA-13B，扩展上下文长度为 8192。

在 Vicuna GPT-4 评估中达到 ChatGPT 分数的 106.6% 。

在 AlpacaEval 上实现 79.5% 的胜率。

也就是说，两个模型在 Vicuna GPT-4 评估榜单上结果都超越了 ChatGPT。

但这种评审 + 宣传的方式似乎并不被大家认可。

网友：夸张

在 Twitter 讨论中，有网友表明，这就是夸张的说法。

在此「大」新闻公布后，Vicuna 官方也迅速做出了回应。

实际上，Vicuna 的测试基准已被弃用，现在使用的是更高级的 MT-bench 基准。该基准的测试，有着更加具有挑战性的任务，并且解决了 gpt4 评估中的偏差以及限制。

在 MT-bench 上，OpenChat 性能表现与 wizardlm-13b 相似。也就是说，开源模型与 GPT-3.5 仍然有着一定差距。这也正是 MT-bench 所强调的内容 —— 开源模型不是完美无缺的，但是这将迈向更好的聊天机器人评估。

前几日，机器之心报道内容《「羊驼」们走到哪一步了？研究表明：最好的能达到 GPT-4 性能的 68%》，也对开源模型的性能进行了评估。

评估还表明，在任何给定的评估中，最佳模型的平均性能达到 ChatGPT 的 83%、GPT-4 的 68%，这表明需要进一步构建更好的基础模型和指令调优数据以缩小差距。

相关资讯

第一个超越ChatGPT的开源模型来了？然而网友并不买账

开源模型真的可以超过 ChatGPT了吗？大模型火了起来，每天我们都能看到各种「大」新闻。今天，又来了个大新闻：新开源的一个大模型超越了 ChatGPT。具体是什么呢？OpenLLM 是一系列在极小、多样且高质量的多轮对话数据集上进行微调的开源语言模型。这两日，作者们更新了该系列模型，并宣称：OpenChat 模型在 AlpacaEval 上获得 80.9% 的胜率；在 Vicuna GPT-4 评估上，性能达到 ChatGPT 的 105%！也就是上面推特截图中，两位博主宣称的开源模型超越

ChatGPT GPT-4 Vicuna

AI研习所 2023-07-05

一个AI怀疑论者的自白：我为什么对AI炒作不买账

第一次用ChatGPT时，我让它写一首关于冰球队华盛顿首都队(WashingtonCapitals)的诗，我故意提了这样一个愚蠢的要求，但希望能得到一个很聪明的回答，我以为这会把这个人工智能聊天机器人搞疯。ChatGPT发布几周后，一个朋友给我发短信说：“我完全上瘾了……刚刚给你发了一篇ChatGPT写的关于僵尸末日的总统演讲稿。”

ChatGPT 人工智能

财经杂志 2023-07-10

欧盟积极“推销”AI监管法案，亚洲国家却并不买账

据来自欧盟和亚洲的高级官员表示，欧盟正在游说亚洲国家效仿其在人工智能方面的做法，为科技公司制定新的规则，包括披露版权和标注由人工智能生成的内容。据悉，欧盟及其成员国已派遣官员与至少10个亚洲国家就人工智能的使…

人工智能

巴比特资讯 2023-07-18

GPT-4得不到MIT学位，MIT研究团队回应“作弊”，但网友不买账

GPT-4得不到MIT学位，MIT研究团队回应“作弊”，但网友不买账机器之心报道编辑：蛋酱避重就轻的解释，还是没能获得大家的认可。几天前，一篇名为《Exploring the MI

GPT-4

机器之心 2023-06-25

重磅！第一个真正开源的大语言模型！超越LLaMA2！训练代码也公开

0. 这篇文章干了啥？ChatGPT等大语言模型在日常、科研、工作上的作用不必多说，但是大模型的训练代码一般是不公开的，只会开放专用接口或者推理代码。但最近OLMo开源了！这是一个最先进的、真正开放的语言模型和框架，完整提供训练数据、训练和评估代码、中间模型检查点和训练日志。对于训练和建模，OLMo包括完整的模型权重、训练代码、训练日志、切除信息、以Weights & Biases日志形式的训练指标以及推理代码。OLMo也是首次发布包括7B规模的语言模型的四个变体，对应不同的架构、优化器和训练硬件，以及一

大语言模型编程 ChatGPT

3D视觉工坊 2024-02-17

近期资讯

嫦娥五号月球样品面向公众开放

钛媒体App12月28日消息，今天下午，“问月——中国探月工程嫦娥五号月球样品展”将在北京天文馆拉开帷幕。本次展览的核心展品是不同粒径的嫦娥五号月球样品，参观者可通过肉眼及显微镜“零距离”观看月壤。

钛媒体快报 2024-12-28

多样可扩展的开源项目———Devface榜单推荐：getomni-ai、tensorzero等

平台提供了一个动态的AI项目和贡献者目录，其中包含了大量的AI技术创新和开源项目，帮助开发者、研究人员和AI爱好者了解行业领先的AI开发者和最新的技术趋势。ominiai的自动化手动工作流程帮助不同行业节省了数百个小时，专为日常工作流程或大规模自动化而构建。

IT桔子 2024-12-28

雷军最新发文：SU7全年交付量超13万台，小米汽车：累计智驾里程突破1亿公里

截至目前，小米SU7全年交付量已超过13万，已提前完成全年所有目标。新的一年，小米汽车工厂将持续提产，加快交付，保障将爱车早日交到您的手上。随后，雷军在新推文表示：我们任务从最早的7万，提高到10万，到12万，最后13万。作为汽车行业新人，SU7上市9个月，交付超过13万辆，绝对是奇迹！感谢大家支持！

每日经济新闻 2024-12-28

重装系统的步骤与注意事项：解决电脑问题的实用指南

重装系统，这个话题对于许多人来说可能有些陌生，但其实在日常使用电脑的过程中，遇到系统问题或者想要提升性能的时候，重装系统都是个不错的选择。然后，选择你要安装的Windows版本，接着会进入许可协议的页面，勾选同意后点击“下一步”。

新报观察 2024-12-28

洛阳科创新材料取得种锂电池负极材料碳化坩埚结构专利，能够降低氧气含量

金融界2024年12月28日消息，国家知识产权局信息显示，洛阳科创新材料股份有限公司取得一项名为“种锂电池负极材料碳化坩埚结构”的专利，授权公告号CN222211224U，申请日期为2024年1月。

金融界 2024-12-28

“生活在量子力学的世界里” 张朝阳将举办2025跨年演讲

12月31日，张朝阳2025跨年演讲即将来临。搜狐创始人、董事局主席兼首席执行官、物理学博士张朝阳将以“生活在量子力学的世界里”为主题，从微观视角解析我们存在的世界，和大家一起硬核跨年、共同迎接2025的到来。

雷递 2024-12-28

重庆市首届青少年无人机大赛在梁平举行

12月27日至28日，“童创空天・启智梁平”重庆市首届青少年无人机大赛暨青少年航空科技创新活动在梁平区举行。来自全市23个区县136所学校、1500余名青少年无人机爱好者齐聚于此同台竞技，逐梦空天新时代，启智梁平向未来。活动由重庆市体育局、重庆市教育委员会、梁平区人民政府联合主办。

上游新闻 2024-12-28

车机存安全漏洞：约80万辆大众电动车位置信息公开暴露数月

快科技12月28日消息，据德国最权威的媒体《明镜》最新报道，软件公司Cariad的一项安全漏洞，导致约80万辆大众集团（包括大众、奥迪、西雅特和斯柯达）在欧洲销售的电动汽车的位置信息暴露在互联

落木 2024-12-28

《蝙蝠侠2》延至2027年

马特·里夫斯的《蝙蝠侠2》由2026年10月上映延至2027年10月与观众见面，延误了一整年。负责规划DC宇宙的滚导在社交平台解释说，延误归咎于编导马特·里夫斯未准备好剧本：&ldqu

Zhengogo 2024-12-28

医工融合能带来啥？3D打印定制眼镜、修复骨折，竟然还能……

12月20日-21日，由四川省卫生健康委员会和重庆市卫生健康委员会指导，四川省医院协会和重庆市社会医疗机构协会共同主办的“第二届成渝双城社会办医创新发展大会暨医务人员综合技能大赛”在成都召开，汇聚了成渝两地医疗智慧，共绘社会办医新蓝图。

封面新闻 2024-12-28

第一个超越ChatGPT的开源模型来了？网友并不买账

推荐体验

相关资讯

第一个超越ChatGPT的开源模型来了？然而网友并不买账

一个AI怀疑论者的自白：我为什么对AI炒作不买账

欧盟积极“推销”AI监管法案，亚洲国家却并不买账

GPT-4得不到MIT学位，MIT研究团队回应“作弊”，但网友不买账

重磅！第一个真正开源的大语言模型！超越LLaMA2！训练代码也公开

近期资讯

嫦娥五号月球样品面向公众开放

多样可扩展的开源项目———Devface榜单推荐：getomni-ai、tensorzero等

雷军最新发文：SU7全年交付量超13万台，小米汽车：累计智驾里程突破1亿公里

重装系统的步骤与注意事项：解决电脑问题的实用指南

洛阳科创新材料取得种锂电池负极材料碳化坩埚结构专利，能够降低氧气含量

“生活在量子力学的世界里” 张朝阳将举办2025跨年演讲

重庆市首届青少年无人机大赛在梁平举行

车机存安全漏洞：约80万辆大众电动车位置信息公开暴露数月

《蝙蝠侠2》延至2027年

医工融合能带来啥？3D打印定制眼镜、修复骨折，竟然还能……

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响