最近,科技圈的热点可太多了,大致是这样的:
ChatGPT-3.5 发布。。。New Bing 发布。。。ChatGPT-4 发布。。。文心一言发布。。。
一波又一波的 AI 新闻,让人感觉《 黑客帝国 》就快要照进现实世界了。
关于它们的测评,相信大家已经看过不少。
但不知道大家有没有好奇过:理工向内容,对错明确,一看就懂这些 AI 啥水平,但创作类的,尤其是文本写作,总让人摸不着头脑。
——看起来写得都挺像回事,但感觉都差不多?
今天世超就想整个活:邀请他们同写一篇高考作文,然后请一位高考作文判卷老师来批改一番 ~
虽然高考作文题目不能代表一切,但这是一个相对公允、而且大家都熟悉的衡量标准。
我们挑选的试题为,2023 年天津卷高考作文,满分为 60 分↓ ↓
邀请的判卷老师是一位资深的天津高考作文判卷老师。
接下来,世超会先展示 AI 作文,然后展示老师评分,感兴趣的差友看例文的时候,也可以自己给他们打个分~
1 号选手:
老师解析:小哥截取生活中的平常瞬间和场景,阐述了烟火气代表的寻常生活的珍贵,文笔流畅优美。结尾主旨升华为珍惜当下的生活,体会平凡之美,立意贴切。文中在勇于担当和奉献的论述时略显脱离主题。本文已基本达到高考作文的二类水平,为一般考生写作的中上水平。从 AI 创作角度看,小哥质量优于一般考生的 50%。
老师评分:45
2 号选手:
老师解析:小哥以作者自身的经历来阐发烟火气,切入点可取,但在行文中对烟火气与自身生活的联系的表述略显生硬,最后的升华也应围绕烟火气的主题来展开。本文为高考作文二类下水平,基本达到高考作文的平均分值,但以 AI 写作来看,在小哥倒数第二段出现了明显不符合日常写作的语言表达,是较明显的扣分点。
老师评分:42
3 号选手:
老师解析:本文对 " 烟火气 " 的理解出现问题。审题有误。将烟火气与烟花燃放混同,因此判定为跑题。此文因明显对题目关键词理解有误,故判定为不及格一档,明显 AI 在某些情况下对语言中的相近词或有隐含意的词语的分析上仍与人存在偏差。
老师评分:28
4 号选手:
老师解析:小哥的开头基本符合题目要求,符合对烟火气的理解。但在后文中出现了段落首句主题句与后面的论证完全脱离的情况,主旨句合题,但论述部分跑题。这种情况影响整体小哥的评分,属跑题套题作文。
老师评分:38
好了,现在各位差友可以猜一下对应的 AI 都是谁了。
一号选手:GPT-4; 二号选手:New Bing
三号选手:GPT-3.5 四号选手:文心一言
不知道各位猜的咋样呢?
GPT-4 的分数果不其然拿到了最高,New Bing 其次,文心一言再次,最后得分最低的是 GPT-3.5。
世超也跟这位老师简单聊了下对 AI 作文的看法。
首先,高考中如果考生没有大的跑题和偏题现象,但也没有特别出彩的地方,一般会在 42 分左右上下浮动,文笔好一点,能在这个基础上加个 1-2 分,也就是说 42 分是大部分人类考生的平均水平。
那么,想要拿高分的话,这几位 AI 主要是欠缺了什么能力呢?
老师告诉世超,这几篇作文主要还是围绕题目本身来写,而想要变成比较优秀的高考作文( 接近 50 或 50 分以上 ),就要对烟火气做引申,比如引申到日常身边微小的瞬间,往更深度的地方去说。
AI 创作的这几篇小哥中有一个共性,就是已经比较符合高考作文结构要求。
前面先给个帽子,后面分几段论述,最后有个升华的结尾,这也是比较常见的写法,这几篇小哥中,这个格式是基本符合的。
但是评阅作文时,结构只是一个方面。
AI 在这几篇创作中也有一个比较明显的问题:概念混淆。
即:将烟火气与燃放烟花混同。
尤其是后面两篇,而在正常考生中,这种比较低级的概念理解错误是比较少见的。
一般正常考生会出现的错误是:套作,也就是拿另外一个他准备好的概念来替换现有概念。
除此之外,还有一些零碎的点。
比如有些作文出现了语言上不太符合正常说话习惯、写作习惯的东西,标点符号也没有。
以及,字数写不满,需要人为矫正的情况。
在世超输入的题目中,明确包含了 “ 不少于 800 字 ” 这一要求,然而其中 New Bing 跟文心一言在初次生成作文时,都出现了只生成了 400-500 字作文的情况。
下面这个是文心一言的,点击可看大图 ↓
如果要用高考评分为维度,这位老师告诉世超,按照高考作文的标准,字数明显不够的情况,基本上就是 15 分左右,不会超 20 分。
看完 AI 们生成的这些作文,世超感觉自己的工作暂时是保住了,毕竟现在的 AI 更多时候只是理解了表意,但语言背后的内涵和隐喻才是写作和表述中最难的那一部分。
当然,我们不排除,如果人为好好的去诱导 AI,给 AI 一些好的素材和角度,它也许会给出真正不错的作文。
无论如何, AI 在创造性写作这一块,人类暂时还有优势。。。