最新的幻觉排行榜显示,GPT 4在总结短文档时表现出色。数据显示,GPT-4的准确率高达97.0%,幻觉率仅为3.0%,回答率达到100.0%。相比之下,Google Palm的两款模型表现较差,其中Palm Chat 2的准确率仅为72.8%,幻觉率高达27.2%,回答率为88.8%。 这份排行榜是由@vectara的幻觉评估模型计算得出的,该模型对LLM在总结文档时产生幻觉的频率进行评估。排行榜的数据会定期更新,以反映模型和LLM的最新进展。 排行榜上列出了不同模型的准确率、幻觉率、回答率和平均总结长...【查看原文】