ChatGPT是美国OpenAI公司去年11月发布的一款人工智能技术驱动的自然语言处理工具,去年11月30日推出以来,60天内月活用户直接破亿,被认为是史上用户增长最快的消费级应用。
写代码、文案,做数学题,进行不同语言之间的翻译,ChatGPT的强大功能让学习人工智能相关专业的复旦大学硕士研究生张啸天感到既震惊又兴奋。
“我主要让它写代码,包括一些技术问题,解决方案。我感觉到它很聪明,笃定它可以通过图灵测试。但它的极限是什么?我想知道它究竟有多聪明。”
于是,去年12月,张啸天和两位同学一起搜集了2010年到2022年的高考全国卷试题,剔除部分含有图片的题目,让ChatGPT作答。
经过近5个月的测试,近日,ChatGPT的高考测试报告新鲜出炉。包括选择题、填空题和问答题在内,ChatGPT共回答了2811道题目。结果显示, ChatGPT更擅长文科,在历史、地理、政治上取得了不错的成绩;而在生物、化学、物理等理科学科上表现不佳,尤其在物理上。
高考全国卷满分为750分。复旦大学计算机科学技术学院硕士研究生宗一告诉看看新闻Knews记者,“综合历年得分情况,ChatGPT做文科卷的得分会更高一些,接近400分;理科题的话,只有300分出头。”。
对于ChatGPT“文强理弱”的偏科情况,该项目的负责人、复旦大学计算机科学技术学院教授邱锡鹏解释说,与文科试题侧重考察常识不同,理科试题更关注逻辑推理能力,这恰恰是目前通用人工智能模型的短板。
据悉,通过对超过1万亿个人类词汇和1700亿个模型参数进行高效迭代训练,ChatGPT具备强大的自我学习、推理和归纳总结能力。既然如此,为何它的“高考”成绩却不太理想呢?
邱锡鹏认为,一方面是因为高考试题确实有难度;另一方面,测试成绩与评价方式相关。“早期我们采用的是人工评分,发现ChatGPT的水平大概可以达到500分。现在我们使用了更严格的方式,也就是机器评分,所以成绩有一定的波动。”
值得注意的是,此次测试的版本为ChatGPT-3.5。随着该模型不断升级迭代,它的能力会越来越强。此次测试除了了解ChatGPT的高考水平外,研究团队还有一个更大胆的设想。
“我们构造一个数据集,这个数据集可以用来衡量不同大型语言模型的效果。因为现在不同的公司、单位、机构都在做自己的大模型,那么就是说我们就要有一个客观的评价标准。大家都说自己的模型水平可以达到ChatGPT的百分之七八十,到底怎么样,需要有一个客观的测试。我认为高考评测是比较客观综合的一种测试方式。”邱锡鹏表示,未来该数据集将大有可为。
(看看新闻Knews记者:周智敏 徐玮)