微软秒删堪比GPT-4的开源大模型！官方：我们只是忘了测试

作者：视角先锋队发布时间：2024-04-24

导语：虽已被移除，但 WizardLM-2 模型的性能似乎已经与 GPT-4 不分伯仲。

因发布前忘了测试，

微软删除最新开源大模型

上周五，Meta 宣布推出了开源大模型 Llama 3，以其卓越性能引发热议。而在 Llama 3 发布之前，微软也悄悄发布了最新的开源模型 WizardLM-2。

颇具戏剧性的是，这款模型在发布仅几个小时后，就被微软下架了，理由是在发布之前忘了进行“毒性测试”。

据悉，这款大模型发布于上周一，提供三个版本：8x22B、70B 和 7B，每个版本都旨在满足不同的规模和要求。8x22B 模型是旗舰模型，拥有 1410 亿个参数，使其成为开源社区中最有效的模型之一。

微软这次发完模型又删除的行为让很多网友表示困惑，因此微软开发人员在 X 上发布了一份声明解释了下架模型的原因。开发人员遗憾地承认了他们在模型发布过程中由于工作疏忽忘记了进行毒性测试。为了向社区保证迅速采取行动，他们承诺在重新发布模型之前立即进行必要的测试。

还有外界消息称，WizardLM-2 背后的研发团队总部位于北京。他们澄清表示：“删除该模型是由于忘记测试，而不是故意试图绕过审查”。

我们深感抱歉。

距离我们发布模型已经过去一段时间，所以现在的我们对于新的发布流程有点生疏，不小心遗漏了模型发布过程中的重要一环——有毒内容测试。

目前，我们正在快速补全测试工作……

大语言模型的毒性，是指其创作有害或不当内容的能力。如果在大模型中发现“有毒”内容，不单会影响技术方案的性能表现，更可能在全球各地纷纷对 AI 技术抱谨慎、甚至负面态度的背景下引发轩然大波。相关错误输出可能在互联网上疯狂自传播，甚至招来政府当局的调查。没有哪家公司愿意看到这样灾难性的经营事故。

因此，该模型的所有文件均被从 GitHub 和 Hugging Face 上移除，访问相关页面现在会显示 404 错误。

这款大模型是在 Apache 2.0 协议下发布的，在 repo 被移除之前，许多人已经下载了模型权重。但有细心的 Hacker News 用户还是将其发布地址备份保存了下来（地址如下）：

https://huggingface.co/dreamgen/WizardLM-2-7Bhttps://huggingface.co/dreamgen/WizardLM-2-8x22B

甚至在下架之前，部分用户已经在其他基准测试中对该模型进行了评估。那么，这款大模型具有哪些功能？与其他大模型相比性能如何？

WizardLM-2“开箱”评测

WizardLM 是一套基于指令的模型，构建于 Meta 的 Llama 基础之上，属于研究人员使用生成的指令数据对 Llama 微调得到的产物。

值得注意的是，WizardLM-2 基于混合专家 (MoE) 架构开发，利用完全由人工智能驱动的综合训练系统，增强其处理复杂、多语言对话和执行高级推理的能力。该系统支持模型在各个领域（包括写作、编码、数学等）提供精致且与上下文相关的响应的能力。

该模型的第二个版本 WizardLM-2 是在 Mistral AI 的 Mixtral 8x22B 模型基础之上构建而成，并利用合成数据进行了微调。该模型家族共包含三大领先型号：WizardLM-2 8x22B、70B 与 7B。与各领先的专有大语言模型相比，这些模型表现出极具竞争力的性能水平。

WizardLM-2 8x22B 是其中最先进的模型，仅略微落后于 GPT-4-1106-preview。70B 在相同体量下达到了顶级性能，而 7B 版本则速度最快，甚至拥有与参数规模 10 倍于它的领先模型相当的性能表现。

该模型利用 AI 模型生成的合成数据训练而成。微软公司在 X 上发帖指出：

随着天然存在的人类数据逐步被大语言模型训练用尽，我们坚信：AI 精心创造的数据与 AI 分步监督的模型将是通往更强 AI 成果的唯一途径。因此，我们构建了一套完全由 AI 驱动的合成训练系统以增强 WizardLM-2。

WizardLM 2 的训练方式（来源：模型启动页面，现已删除）

在 MT-Bench 框架等基准评估中，WizardLM-2 展现出具有竞争力的性能，甚至可以与最先进的专有模型相媲美。它在现实场景中的应用较为广泛，从增强对话式人工智能到支持业务环境中的复杂决策流程。

将 WizardLM2 基准与 GPT-4–1106-preview、Command R Plus、Mistral Large、Qwen 1.5、Straling LM 7B 进行比较。（来源：模型启动页面，现已删除）

在 MT-Bench 中将 WizardLM-2 与 GPT-4-Turbo 和 Claude-3 等最先进的专有大模型相比，WizardLM-2 8x22B 仍然具备极富竞争力的性能。同时，7B 与 70B 也均成为同等参数规模之下性能最强的大语言模型。

近期资讯

运动耳机哪个牌子好？运动耳机品牌前五名原来如此专业！

作为一个运动爱好者，无论是跑步、健身还是骑自行车，我都超享受。运动时来点音乐，能让我更放松，更享受运动的乐趣。但我发现市面上的耳机，不管是有线的还是无线的，都不太适合我，尤其是在我出汗的时候，稳定性和舒适度都不够。因此，我开始尝试开放式耳机，它们不塞进耳朵，特别适合运动时戴，还能保持耳朵的卫生。我亲自试了几款不同牌子的开放式耳机，现在我要把我的推荐带给你们，相信它们会成为你们运动时的好搭档。 [图片] [图片] 在开始推荐耳机之前，我想先给大家科普一些有关运动耳机的知识，给大家看看到底什么耳机更适合运动

scboy数码 2024-12-25

AIPPT让你告别PPT噩梦！AI一键生成，效率神器！

[图片] 熬夜加班做PPT，改到昏天黑地？老板的夺命连环call，让你恨不得把电脑砸了？相信我，你不是一个人！曾经，我也是PPT地狱的常客，加班改稿到凌晨是家常便饭，直到我发现了AI这个神奇的存在！现在AI制作PPT已经不再是天方夜谭，而是触手可及的现实。AI做PPT，不仅解放了我的双手，更解放了我的大脑！以前构思框架、搜集素材、设计排版，至少得花上大半天，现在用AI生成PPT，几分钟就能搞定！你可能会问，AI生成PPT真的靠谱吗？会不会做出来的东西千篇一律，毫无创意？我的答案是：完全不会！现在的A

HUIPPT 2024-12-25

【saas系统平台】网站搭建，也可以很有趣！

saas系统是一种通过互联网提供软件的模式，用户无需购买昂贵的许可证或硬件，只需按需付费，大大降低了企业成本。凡网云，作为saas系统平台中的佼佼者，以其强大的功能和易用性，成为企业建站的首选。与其他同类产品比较，凡网云建站工具的优势：价格优势：具有显著的价格优势，帮助用户以较低的成本快速搭建网站。用户体验：提供了直观易用的网站搭建界面和工具，非专业用户也能轻松创建具有专业外观的网站。易用性：建站提供了丰富的模板和设计工具，用户无需学习代码，简单拖拽即可完成网站搭建。应用场景：凡网云建站工具适用于多种场

帆可云官网 2024-12-25

新年礼物大放送：2025新年必选！送给亲友的十大最佳礼物推荐

新年即将来临，这是一个充满喜悦和温馨的时刻。在这个象征着新开始与希望的季节里，人们总是渴望为身边的亲朋好友送上最诚挚的祝福与关怀。一份精心挑选的新年礼物，不仅能够传递出我们对彼此的深厚情谊，还能在寒冷的冬日里带来一丝温暖与惊喜。面对琳琅满目的市场选择，如何从众多选项中甄选出既实用又有意义的新年礼物，成为了许多人的心头难题。 [图片] 为了帮助大家在即将到来的新年中轻松找到完美的礼物，我们特别策划了这份推荐指南。这里所列出的每一件礼物都是经过精挑细选，结合最新的市场趋势和技术发展，旨在满足不同人群的需求。无

御海蓝桉 2024-12-25

微软秒删堪比GPT-4的开源大模型！官方：我们只是忘了测试

推荐体验

相关资讯

微软秒删堪比GPT-4的开源大模型！研发总部还被爆在北京？官方：我们只是忘了测试

发布几小时，微软秒删媲美GPT-4开源大模型，竟因忘记投毒测试

Mistral AI新模型对标GPT-4，不开源且与微软合作，网友：忘了初心

讯飞AI大模型“领跑国内”？做数学题堪比GPT-4！

超越GPT-4！Google Gemini AI模型官方测试视频

近期资讯

运动耳机哪个牌子好？运动耳机品牌前五名原来如此专业！

AIPPT让你告别PPT噩梦！AI一键生成，效率神器！

【saas系统平台】网站搭建，也可以很有趣！

新年礼物大放送：2025新年必选！送给亲友的十大最佳礼物推荐

3d打印雕像手板模型过程-齐乐手板

PBS垂直轮生物反应器：推动eMSCs细胞治疗迈向临床_曼博生物代理

u盘做系统盘方法?u盘启动盘制作步骤【图示】

【领康时代CDMO】设计 pH 控制策略以提高生物反应器中 CHO 细胞的表达（下篇）

重庆抵押车凯美瑞多吗？价格多少？

2024 年中国长轴泵十大厂家盘点

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响