?IDC发布2024大模型评估报告:百度唯一一家7大维度入选优势厂商
6月12日,国际数据公司IDC发布《中国大模型市场主流产品评估,2024》,从基础能力到应用能力7大维度对11家大模型厂商的16款市场主流产品进行实测。
结果显示,百度位于第一梯队,是唯一一家在7大维度上均为优势厂商的企业。
百度旗下生成式AI产品文心一言和文心一格在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7大维度均具备领先优势。其他评测厂商中,阿里获6项优势维度,OpenAI GPT-4和商汤分获5项。
IDC此次采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等,在审核委员会的监督下,最终得出各厂商的评估结果,供用户选型参考。
百度、OpenAI、阿里、商汤、科大讯飞、百川、智谱、昆仑万维等11家大模型厂商参与了本次评估。
在基础能力评测中,大模型产品在问答理解类、推理类和创作表达类的成熟度较高。百度文心大模型在当前关注度高的多模态、安全、文本风格迁移等细类评估中表现出色,体现出强大的基础模型能力。在数学类和代码类等考验模型逻辑、推理等能力的评测中,百度文心大模型同样表现优异,体现出强大的体系化思维、逻辑思维和抽象思维能力。在代码类所有6个细分维度中,百度均入围优势厂商。据了解,基于文心大模型百度研制了智能代码助手Comate,目前整体采纳率已达46%,新增代码中生成比例已达27%。
应用能力评测主要评估大模型产品在办公工具、生活助手等toC通用场景类和toB特定行业类的表现。评测结果显示,百度文心大模型在搜索、写邮件、文生图表等办公场景和衣食住行、生活服务、闲聊创意等生活助手场景中都具备优势。此外,文心大模型已经在能源、金融、媒体、医疗、通信、制造、交通、互联网等行业形成广泛的落地应用生态,通过大模型解决诸多场景的实际问题。
公开资料显示,2023年10月,文心大模型4.0正式发布,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上明显提升。截至目前,文心一言累计用户规模已达2亿,日均调用量也达到了2亿。
此外报告显示,在行业落地上,百度智能云推出千帆大模型平台,以一站式企业级大模型开发及服务运行平台服务大众。2024年5月底,百度宣布文心大模型的两款主力模型ERNIE Speed、ERNIE Lite免费。截至目前,包括国家电网、浦发银行、中国航天、吉利、长安汽车、泰康保险、TCL、上海辞书出版社、荣耀、三星、蔚来汽车、南方电网、山东港、汽车之家、毕马威等都成为百度文心大模型的用户和合作伙伴。文心大模型已经拥有中国最广泛的产业落地规模。
IDC认为,从2024年二季度开始,中国市场迎来了一波基础大模型及产品的更新升级,新一轮的“百模大战”一触即发。IDC中国大模型产品测试团队表示,2024年产业界更加关注大模型和生成式AI的落地,技术供应商需持续优化生成质量,提高生成速度并降低大模型使用成本,加快大模型技术的应用与普及。