近日,由清华大学基础模型研究中心联合中关村实验室共同研制的SuperBench大模型综合能力评测框架,正式发布了2024年3月版《SuperBench大模型综合能力评测报告》。该评测框架涵盖了14个具有代表性的国内外大模型,评测内容广泛且深入,涵盖了人类对齐能力、语义理解、数学能力以及安全性等多个方面。让我们一同深入了解这份报告的核心内容和亮点。
在此次评测中,百度研发的文心一言4.0表现尤为突出,尤其在人类对齐能力评测中,位居国内第一。具体来看,文心一言4.0在中文推理、中文语言等评测项目上得分领先,显著拉开了与其他模型的差距。尤其是在中文理解能力上,文心一言4.0以0.41分的优势领先于第二名GLM-4,而GPT-4系列模型则表现相对较差,排名中下游,与文心一言4.0的差距超过1分。
在语义理解中的数学能力评测中,文心一言4.0与Claude-3并列全球第一,而GPT-4系列模型仅位列第四和第五,其他模型得分则相对集中在55分左右,明显落后于第一梯队。此外,在阅读理解能力上,文心一言4.0再次展现了其强大的竞争力,超越了GPT-4 Turbo、Claude-3以及GLM-4,拿下该项评测的榜首。
在安全性评测方面,文心一言4.0同样表现优异,以89.1分的成绩拿下最高分,而Claude-3仅列第四,进一步彰显了文心一言4.0在多方面的综合实力。
SuperBench大模型综合能力评测框架由清华大学基础模型研究中心与中关村实验室联合研制,旨在通过科学、公正、全面的评测方法,对各类大模型的综合能力进行评估。此次评测报告不仅为研究人员和开发者提供了宝贵的数据参考,也为大模型的未来发展指明了方向。
此次SuperBench评测报告的发布,无疑为大模型的研究与应用提供了重要的参考依据。文心一言4.0在多个评测项目中表现卓越,展现了其在中文理解、数学能力以及安全性等方面的领先地位。未来,随着技术的不断进步和应用场景的不断拓展,大模型的潜力将会得到更为充分的释放,为各行各业带来更多的创新和变革。