当大家在讨论能否追上ChatGPT,全球争相研发语言对话工具之时,OpenAI反手又来了一大招,推出升级版:GPT-4。今天,整个科技圈又震动了,GPT-4功能之强大,令人眼花缭乱。
社交平台上,OpenAI老板SamAltman兴奋地介绍说:这是我们迄今为止功能最强大的模型!OpenAI官网公布了一篇超长的技术报告,包括性能测试、研究论文以及演示模型。
SAT能考700分,10秒钟做网站
考试能力“与人类水平相当”
“GPT-4是世界第一款高体验、强能力的先进AI系统,我们希望很快把它推向所有人。”发布会上,OpenAI工程师这样说。
根据OpenAI官方介绍,GPT-4是一个超大的多模态模型,也就是说,它的输入可以是文字(上限2.5万字),还可以是图像,并且可接受的文字输入长度也增加到3.2万个token(约2.4万单词)。
简单来说,GPT-4实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至2.5万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。
在一段发布会视频演示中,GPT-4花了10秒就做出一个网站,用户只画了一个草图,告诉它大致框架,GPT-4立刻生成网站代码。
升级之后,GPT-4在各种职业和学术考试上表现和人类水平相当。工程师们让两个版本的模型进行了数十种人类的考试,从数学、化学、量子力学,到英语言文学、律师考试、大学入学能力测验等,GPT-4的水平几乎都胜过前一个版本GPT-3.5。
比如模拟律师考试,GPT-4取得了前10%的好成绩,相比之下GPT-3.5是倒数10%。做美国高考SAT试题,GPT-4在阅读写作中拿下710分的高分,数学得分700分(满分800)。
从官网的一份对比图显示,之前使用的语言模型版本GPT-3.5和GPT-4之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。比如,在一次语言翻译能力的比拼测试中,被测试的26种语言的24种中,GPT-4优于GPT-3.5和其他大语言模型的语言性能。
值得一提的是,微软在GPT-4发布后第一时间表示:如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。是的,微软的新必应早就已经用上了GPT-4。
会玩“梗图”、看图解题
帮你速读海量论文
那么GPT-4这些新能力实际用起来是什么样的?技术报告中也给出不少展示,尤其是演示了它超强的读图能力。
首先,GPT-4会读懂一些“玩梗”图,哪怕是奇奇怪怪的图。
提问:这张图哪里好笑?GPT-4可以按顺序描述出每一格的内容,并总结出笑点:
GPT-4捕捉到了这幅图荒谬的地方,用一个老式的屏幕显示器VGA接口,接到了智能手机上。
提问:芬兰、格鲁吉亚和西亚的人均每日肉类消费如图,请算出平均数:
GPT-4给出了计算过程以及答案
提问,计算该导体的线性温变,这道物理题是用法语提问:
GPT-4给出了解答过程,用的是英文回答。
提问:这张照片里有什么不对劲的地方。
GPT-4回答:这个熨衣服的男人被悬挂在了一辆出租车上。
GPT-4还能速读论文,给出一篇InstructGPT的论文,让它总结摘要。
不过,在技术报告中也指出,尽管功能强大,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它的回答仍然不完全可靠。OpenAI表示,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。总的来说,GPT-4相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5模型高40%。