近期,lmsys 竞技场公布的一份榜单引发了热议,GPT-4o mini 与满血版本并列榜首,超越了 Claude 3.5 Sonnet。这一结果起初让许多网友感到难以置信,怀疑 lmsys 是否受到了来自 OpenAI 的影响。然而,随着官方公布了详尽的数据,人们开始理解 GPT-4o mini 如何在竞争中脱颖而出。
GPT-4o mini 在与 Claude 3.5 Sonnet 的较量中主要凭借三点优势取胜:更少的拒绝回答、更详细的解答以及更为清晰的格式。当面对一些敏感问题时,Claude 3.5 Sonnet 倾向于谨慎回应,而 GPT-4o mini 则尝试从公共资源中寻找答案,尽管这些答案可能并不直接相关。此外,GPT-4o mini 在回答问题时,倾向于提供更多的信息和细节,即便这些信息并非提问者所必需。最后,它还使用了更为直观的格式和排版,如加粗和分段落,使回答看起来更有条理。
这些策略似乎迎合了人类评判者的偏好,因为在大多数日常问题上,各大模型都能给出正确的答案。因此,回答的完整性和呈现方式成为了决定胜负的关键因素。虽然 GPT-4o mini 在某些方面表现出了不足,比如数学任务处理能力较弱、记忆力不如对手,但它依然在竞技场上获得了高分。
这种现象也引发了一些思考,即大模型在面对伦理和道德问题时的处理方式是否应当被重新审视。一些用户表示,他们更喜欢那些能够遵循严格道德准则的模型,尽管这可能导致它们在某些情况下得分较低。总体而言,这次竞技场的结果揭示了大模型之间的细微差别,同时也为未来的模型开发提供了新的启示。