自从ChatGPT在去年11月份风靡以来,更多不同语言模型(LLMs)、定价、用户界面、互联网接入等的聊天机器人一一展露,这就让用户很难直接确定哪个才是更好的聊天机器人。
由加州大学伯克利分校的学生和教师共同创立的开放研究组织Large Model Systems Organization(LMYSY Org)创建了聊天机器人竞技场,这是一个语言模型基准平台,用户可以通过输入提示并选择最佳答案来对两个随机模型进行测试。根据LMSYS Org的说法,用户评级结果将根据Elo评级系统在排行榜上对LLMs进行排名(Elo评级系统是国际象棋中广泛使用的评级系统)。
过程就不多说,直接给大家看结果,如图:
聊天机器人评分排行榜
实际如何,各位可以根据自己的实际情况去尝试。
可以看到,GPT-4毫无疑问是目前最好的选择,排名第二的Claude目前还不对公众开放,但有一个排队名单,可以尝试申请以获得访问权限(通过poe也可以体验)。
排行榜上排名第八的是PaLM-Chat-Bison-001,这是Google Bard背后的PaLM 2的一个子模型。这个排名与对Bard的普遍观点相符,不是最差的,但也不是最好的。
原文出自ZDNET,翻译过程中使用了94c点cc工具。