各位同学大家好!我是李永乐老师!
最近有一个非常火的人工智能软件——OpenAI公司开发的ChatGPT。
它可以陪你聊天,给你写发言稿,给你诊断疾病,还能做数学题。人工智能已经进入了一个新的时代。
ChatGPT依然采用了深度神经网络,这方面的基本原理,我在之前的几个人工智能的视频中都谈到过。这一回,我想和大家一起试试,ChatGPT到底有没有传说中的那么厉害?如果让它参加高考,到底能考上哪个大学呢?
为此,我特意从北京市2022年的高考题中选择了一部分,来考考ChatGPT,内容涉及理科的物理、生物,文科的历史、政治,当然还包括语数外。化学和地理因为图太多,不太适合GPT的输入模式,就被我舍弃了。
因为GPT的数据库只到2021年,而且不会联机搜索答案,所以它应该没有看到过这份高考题。我还把试卷中的所有公式全部修改为LaTeX格式,让GPT能够读懂。GPT表现得怎么样?咱们一起来看看!
01
物理
评价:GPT做对了。这题是基础题,氢原子外围电子有不同的轨道,吸收光子,电子就会从基态轨道跑到激发态轨道,能量增加。放出光子,电子就从激发态轨道回到基态轨道,能量减少,GPT不光选对了,解释也非常清楚。
评价:GPT做对了。光是一种横波,也就是电场和磁场与传播方向垂直,电场振动的方向叫做偏振方向,只有横波才会出现偏振现象。还有一种波叫纵波,比如声波就是纵波,说话的时候空气前后振动,声音也向前传播,纵波是没有偏振的。另外三种现象所有得波都具有。
评价:GPT做错了,正确答案应该是B。非常奇怪得一点是:它在答案中明明给出了输入电流是30A,B选项也说输入电流是30A,但是它就认为答案B不正确,让人匪夷所思。
评价:GPT做对了,而且说的很清楚。在跳台滑雪起跳区,运动员通过猛蹬滑道将滑行能量转化为向上的速度,并且尽可能快地使自己脱离滑道,从而获得更多的空中滞留时间和飞行距离。说的很清楚。不过,我之前仔细研究过这个问题,GPT对其它选项的分析还不完全正确。比如A选项助滑时候深蹲,不只是为了积累弹力,也是为了减小下滑时候的空气阻力。C选项飞行阶段采取的姿态,不是为了减小阻力,而反而是为了增加空气阻力,让运动员飞行时间更长。
评价:GPT做错了,正确答案是A。其实GPT的分析都对,但是却给出了错误的选项。
首先,托卡马克装置释放的核能是核聚变的能量,不是等离子体的动能。GPT已经分析出来了,但是它却没有选A。等离子体就是在高温时,原子的一部分电子脱离,形成了电子-正离子的混合体,可以用磁场约束,而且可以导电,B和C都是正确的,GPT也分析出来了。提高温度的确可以克服库伦排斥力,让原子核撞在一起,引发核聚变,D选项也是正确的。不正确的只有A。
总结一下:物理考试5个题,GPT对了3个,正确率60%,算是一个中等生了。
02
生物
评价:GPT做对了。说的非常准确,原核生物没有细胞核。
评价:GPT做对了。因为雄蜂是未受精的卵细胞发育成的单倍体,精子核体细胞染色体数目一样,B是不正确的。
评价:GPT做对了。我已经完全看不懂题了,答案说它对它就对。
评价:GPT做对了。的确,天安门没办法微重力,这个我还是可以蒙对的。
评价:GPT做错了,正确答案是C。标准答案解释说:下丘脑可分泌促肾上腺皮质激素释放激素,作用于垂体,促进垂体合成并分泌促肾上腺皮质激素,进而促进肾上腺皮质激素的分泌,所以C错误;GPT要是会骂人肯定会说:这也太坑爹了。
评价:GPT做对了。金黄色葡萄球菌,我认识这货还是在工作细胞里。
评价:GPT做错了,标准答案是A。GPT说了这么多,要是我没有标准答案我就信了。
评价:GPT做错了,标准答案是C,这个也属于普通人连题都看不明白。
评价:GPT做错了,标准答案是B。
评价:GPT做对了。人家植物都濒危了,你还用人家培育观赏植物,这不是玩呢。
总结一下:生物考试10个题,对了6个,正确率60%。和物理一样。我如果答这个卷子,肯定拿不到60分,GPT参加高考,生物上肯定超过我了。
03
历史
刚才考了两门理科,咱们这回再来考考文科吧!文科我喜欢历史,来看看它考的怎么样。
评价:GPT做对了,中华文明多元一体。
评价:GPT做对了。北宋特别注重教育,重文抑武中国科举制度就是在宋朝空前繁荣的。
评价:GPT做错了,标准答案是D。这两句话说明:长安和罗马都曾经是帝国交通网络的中心。不过,从长安到罗马的确是东西交流的通道,GPT说的也有道理。
评价:GPT做对了,我连题都读不懂,GPT都能做对。
评价:GPT做错了,正确答案是B。这个题有意思了。表面上看:英国很关心中国主权,告诉中国长江不能租押给他国,清政府也保证:这是中国要地,绝对不给别人,好像是维护了主权完整。可实际上呢?英国政府所说的他国,是除了英国之外的他国,换句话说长江沿岸只能租押给英国。清政府说了嘴硬的话——中国要地,不予他国。实际上是默认了长江成为英国的势力范围。这需要结合历史背景知识才能答对,只从字面上让GPT理解,的确有点强人所难了。
评价:GPT做对了。1946年国民党召开政协会议,史称旧政协,用来区分1949年召开的新政协。4月8日,美军护送王若飞、博古、叶挺、邓发等人返回延安,结果延安下雨无法降落,飞机返航。途中迷失方向,撞在山西省黑茶山,机上14分全部遇难。
评价:GPT做对了。
评价:GPT做错了,标准答案是C。非洲不是中国的周边国家,肯定不能选A,显然活动是文化交流的一部分,应该选C。建交高潮发生在五六十年代,紧跟着非洲兄弟就把我们抬进了联合国。非洲11国也不都是金砖国家,D选项有点狭隘。
答:GPT做对了。西亚有两河流域,北非有埃及,这都是人类最早的文明,字母、雕刻和冶铁技术这里都有,所以马丁贝尔认为希腊文明发源于西亚和北非。可是奴隶主民主制好像是希腊的城邦自创的,我看过一种说法说因为希腊的地理条件,造成它们的工商业比较发达,做生意需要平等,于是就发展出了民主制,不知道这种说法有没有道理。
评价:GPT做错了,标准答案是C。欧洲一直采用类似于中国春秋战国时代的分封制,国王的权力很有限。为了获得民众的支持,才成立了下议院,国王需要经过议会同意才能加税,A不对。这是一种妥协,说明国王需要联系市民,应该选C。英国的世袭贵族控制着上议院,下议院是市民选举产生的,而下议院的权力比上议院大,所以D不对。至于君主立宪,那更是17世纪的事情了,B不对。这个题连我都会,GPT不知道为什么犯糊涂了。
评价:GPT做对了。书我没看过,题目也不会,但是GPT能够选对,厉害。
评价:GPT做对了,真是强啊!
评价:GPT做错了,答案是B。对每一条内容的背景,GPT都准确做出了判断。但是按照时间排序却没有排清楚,遗憾。
总结一下:在历史考试的13个题目中,GPT错了5个,对了8个,正确率61.5%。与物理、生物的正确率都差不多。
类似的,我还测试了政治考卷。在13个选择题中对了7个,正确率54%,看起来,GPT的政治不太好。
文理科考试就到这了。下面是主课:语数外的考察。可以预见,作为一个用英文资料训练出的语言模型,英语考试自然是不在话下,那么它能得多少分数呢?我们来试试。
04
英语
第一个题是完形填空,就是根据上下文,选一个正确的词填进去。我们看看GPT的表现。
GPT给出的回答是:
经过检查,GPT在这一题中全对!虽然意料之中,但依然感觉非常神奇。想起我上高中的时候,英语完形填空都是连错。
后面我又让GPT做了阅读理解,正确率也非常高。整个客观题部分一共有39个选择题,GPT对了36个,只错了3个,正确率高达92%,已经达到了英语优等生得水平了。
那么,书面表达能力怎么样呢?英语考试书面表达有两个问题,第一题是阅读一段短文,然后用英文回答问题。题目是:
GPT回答:
简单翻译一下:
题目问:汤姆在自己的学校目睹了什么?
GPT说:汤姆亲眼目睹了他所在学校的孩子们大量饮用含糖饮料。
题目问:汤姆从哪里得到乐趣瓶的最初模型的想法?
GPT说:汤姆最初的灵感来自于观察他妈妈如何制作健康的水果饮料,但后来又很难找到随身携带的饮料。
题目问:请判断下列句子中哪部分是错误的,并在下面划线并解释原因。
Tom最自豪的是乐趣瓶为其他人提供了机会,因为他不仅提供了含糖饮料的健康替代品,而且还将所有利润捐赠给了OHG。
GPT说:该声明的错误部分是“将所有利润捐赠给OHG”。文章指出,汤姆将部分利润捐赠给了健康一代组织(OHG),而不是全部利润。
题目问:在汤姆的品质中,你认为哪一点对我们来说是重要的?为什么?
GPT说:汤姆的品质之一对我们很重要,那就是他的毅力。他建议其他年轻的创业者要准备好经历很多的高潮和低谷,没有一夜成名的事情。这种品质很重要,因为它强调了努力工作和实现目标的决心的重要性。
我找了一位英语老师,给GPT的回答进行评价。这一题12分,他给了9分。
最后是英语大作文,以下是题目和GPT的回答。
简单翻译一下GPT的回答:
亲爱的吉姆,
你好吗?我希望你一切都好。我写信是想邀请你给我和我的同学做一个关于英语写作的在线演讲。
如你所知,我们是中国的高中生,我们需要参加大学入学英语考试。写作是考试中最具挑战性的部分之一。我们想学习你的写作经验和技巧,以提高我们的写作水平。
我们计划在即将到来的北京时间周六上午10点进行网上谈话。我们会用Zoom来开会。请让我知道这个时间对你是否合适。另外,请告诉我们你演讲的具体主题和时长。
期待您的回复。
你的,李华。
这篇作文我也发给了英语老师,满分20分,英语老师给了14.5分,属于及格线以上。
综上,英语写作部分的32分,GPT得了23.5分,得分率73%,低于客观题92%的得分率,但是也远远高于用中文表述的物理、生物、历史题。
把主观题和客观题综合在一起,英语考试中GPT得分86分。由于英语选择了全部试题,这个分数是准确度比较高的。
05
数学
咱们再来看看数学考试吧!都说ChatGPT的数学不好,这是真的吗?
2022年北京高考数学题的选择题部分一共有10个题,一个题有配图需要拿掉。余下9个题。以下是题目和GPT的回答:
九个题中,GPT对了6个,正确率66.7%。虽然比英语略低,但还是高于物理、生物和历史科目。
我也测试了一部分数学主观题,发现虽然它有一定的推理能力,但是一本正经说瞎话的时候还是居多,GPT要想真正完成数学考试,可能还得学习一个。
GPT做的数学主观题
06
语文
最后还要测试语文,还是那句话,在GPT训练过程中,中文资料相对较少,所以在理解中文方面,GPT可能还存在欠缺。语文考试,我们就仅以作文为例进行测试吧!
语文考试有两个作文,一个小作文和一个大作文。首先来看小作文的题目和GPT的回答:
我觉得写的不错。再来看看语文大作文,题目是:
GPT给出的答案:
个人感觉这篇大作文有点空洞无物,不知道语文老师会怎么评价?我把这两篇作文都发给了一位资深语文老师,这是她的回复:
语文老师就是厉害,一眼就看出了这篇文章是AI写的。于是60分的作文,得了40分,66.7%,与数学相差无几。
综上,按照我现有的测试,GPT各科的正确率如下:
因为北京高考是需要考语文数学英语,各150分,另外六门史地政理化生,选考3门,每一门100分。如果GPT选考历史、物理和生物,那么他的得分情况是:
一共能拿到511分。当然,这个分数最终还要赋分,就是按照排名折合成一个新的分数,但是因为排名我们不知道,所以也没办法知道具体的折合结果。假如,赋分之后,依然是511分,那么能考上什么学校呢?
京内211高校里,最低分是北京中医药大学,516分,还差一点。
京外211高校里,新疆大学最低509分,GPT刚好可以考上。
结论是:如果GPT参加2022年北京高考,大约可以考上新疆大学。
当然,如果加入大量的主观题,GPT的分数可能没有这么好,它一本正经说瞎话的本事还是挺强的。但是,GPT基本上相当于一个刚出生的婴儿,而且人家基本上是个英语娃,非要参加汉语书写的考试,如果再进行一段时间的训练,考到600多分是完全有可能的。
其实,我们教学的过程不也是这样吗?通过大量的题目,训练调整学生们神经元的连接,最后让他们学会自主解题,这和用大量数据喂给ChatGPT,让它自动调整参数,是一样的。只不过,GPT的学习速度非常快,它用一天的时间,可能可以达到人类数百年的学习力。
深度神经网络
我相信,GPT一定能够深刻的改变社会。就像蒸汽机将人类带入了蒸汽时代,发电机将人类带入了电气时代,计算机将人类带入了电子时代,互联网将人类带入了信息时代一样,未来已经来了。
法拉第发明的圆盘发电机
有人问:人工智能会产生自我意识统治人类吗?终结者的情节会出现吗?我想,在人工智能统治世界之前,那个掌握最强人工智能技术的公司或者人,就会统治世界了,而这可能是我们更需要担心的。