InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度,分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。另外,本次研究特别关注了技术视角中大模型产品的编程能力,同时也专门设置了关于中文语境的特色测试题目, 如方言测试、中文特色推理、对对联等。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知,以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。...【查看原文】