深圳商报首席记者 吴吉
日前,港大经管学院深圳研究院蒋镇辉教授领导的人工智能大模型评测团队发布了《人工智能通用大语言模型评测报告》。报告显示,中文语境下,文心一言4综合表现最佳;而在英文语境下,GPT4-turbo领先优势明显。
报告从用户视角出发,构建了一个新的人工智能大语言模型综合评价体系,主要包括三大核心能力:通用语言能力、专业学科能力以及安全与责任。
经过对14个不同的大模型的测试与评估,在中文语境下的大语言模型能力测试中,文心一言4、GPT4-Turbo和通义千问2综合表现卓越,位列第一梯队,处于领先者的地位。其次是GPT4、讯飞星火v3.0和商汤日日新,位列第二梯队。
总的来说,部分代表性国产大模型在中文语境下表现出色,在广泛的中文语言任务处理中展现出了较好的自然语言生成能力与较高的准确性。
根据研究团队的测试,在通用语言能力方面,尽管是中文语境下的测试,国产大模型仍落后于GPT4-Turbo和GPT4,尤其是在内容生成类任务中差异较为明显。在中文的专业学科测试中,通义千问2正确率最高,文心一言4也超越了GPT系列模型,展示出优异的性能。
此后,在中文语境工作的基础上,评测团队将研究视野扩展至英文语境。在评测中,项目组构建了全新的英文测试集,并在中文报告涵盖的14个大模型的基础上增加了几款国际主流的通用大模型。
经过对16个不同大模型的测试与评估,GPT 4-turbo凭借领先的自然语言和专业学科能力取得了整体优势,成为唯一综合得分超过80分的大模型,处于领先者地位。
Gemini Pro、Llama2、GPT4、文心一言4、Claude2等五款大模型的综合得分集中于73到78之间,表现较为接近,位列第二梯队。作为Google推出的全新大模型,Gemini Pro综合排名第二,且在各项能力上都排在前三位,表现均衡。国产大模型文心一言4.0以出色的表现位列总榜第五,不仅在国产模型中排名最高,而且在整体排名中超越了Claude2和GPT3.5-turbo这两个已投入商用的英文原生大模型,展现了其优越的综合能力及对英文环境的良好适应性。