开源模型真的可以超过 ChatGPT了吗?
大模型火了起来,每天我们都能看到各种「大」新闻。


· OpenChat:基于 LLaMA-13B,上下文长度为 2048。
· 在Vicuna GPT-4 评估中达到 ChatGPT 分数的 105.7% 。
· 在 AlpacaEval 上达到 80.9% 的胜率。
· OpenChat-8192:基于 LLaMA-13B,扩展上下文长度为 8192。
· 在 Vicuna GPT-4 评估中达到 ChatGPT 分数的 106.6% 。
· 在 AlpacaEval 上实现 79.5% 的胜率。
也就是说,两个模型在 Vicuna GPT-4 评估榜单上结果都超越了 ChatGPT。但这种评审 + 宣传的方式似乎并不被大家认可。
网友:夸张
在 Twitter 讨论中,有网友表明,这就是夸张的说法。


评估还表明,在任何给定的评估中,最佳模型的平均性能达到 ChatGPT 的 83%、GPT-4 的 68%,这表明需要进一步构建更好的基础模型和指令调优数据以缩小差距。

新疆无人机03考点 2024-12-27

思源科安虹膜识别 2024-12-27

智能矿灯充电柜厂家 2024-12-27

用友BIP商业创新平台 2024-12-27

Inslogic3D 2024-12-27