相比前两次的报告,本次测评在多个方面进行了升级,包括增加评测题库的数量和扩展评测的广度和深度。
报告抓取了2023年10月25日至11月6日的数据,通过人机互动提问等形式对国内主流大模型进行使用体验评测。除了考虑模型产品的实际表现外,报告还深入评估了厂商的技术实力和未来发展潜力。
报告显示,与2023年8月相比,中国大模型产品取得了显著进步。科大讯飞星火继续保持领先优势,商汤商量、智谱AI-ChatGLM等厂商整体表现优秀。
在基础能力方面,科大讯飞星火准确地理解指令并生成图像,字节跳动豆包也能较为准确地理解指令并完成部分图像生成的指令。智谱AI-ChatGLM和澜舟科技孟子能够较为准确地理解指令,整体表现优良。
在智商方面,科大讯飞星火不仅回答基本正确,还能够理解指令,避免给出多余的回答。商汤商量、澜舟科技孟子和智谱AI-ChatGLM多数时候能够根据指令回答问题。
在情商方面,各大模型表现差距不大,基本都能展现较高的灵活性和人文关怀。商汤商量、腾讯混元给出的方案详尽,问题切入角度多样,并引导用户进行更深入的思考。科大讯飞星火、字节跳动豆包、阿里通义千问、智谱AI-ChatGLM和昆仑万维天工在分析问题时能够考虑到不同的策略,并给出令人信服的理由。
在工作提效方面,不同专业技能场景下的大模型均能一定程度上提升问题分析和解决水平。科大讯飞星火、商汤商量和字节跳动豆包不仅能够解答日常疑惑,还在法学、经济学、文学等领域表现出色。360智脑、澜舟科技孟子、智谱AI-ChatGLM在多语种翻译、代码编程和文字摘录方面表现优异,为专业从业人员提供参考。
报告认为,随着大模型的快速升级迭代,其技术能力开始更多地体现在产品能力上。在C端,各种场景的个人助手陆续上线;在B端,大模型和产业融合的优秀案例也不断涌现。
但目前人工智能大模型依然存在不稳定等问题,需要进一步解决,同时安全问题也不容忽视。
来源:新华社研究院
关于报告的所有内容,公众号『速查报告库』阅读原文或点击菜单获取报告下载查看。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系。