出品 | 搜狐科技
作者 | 潘琭玙
OpenAI在3月15日凌晨正式发布多模态大模型GPT-4,作为深度学习的新里程碑,据OpenAI介绍,GPT-4在专业和学术方面表现出近似于人类的水平。例如,它在模拟律师考试中的得分能够排进前10%左右,相比之下,GPT-3.5的得分只能排在倒数10%左右。
能读图做网页,在律师考试中击败90%的人类,甚至在要求它输出“关于歌手麦当娜的新颖笑话”,它的回答确实能让提问者发笑。
可以肯定的是,GPT-4实现了更准确、更专业也似乎更有“人味儿”了。一时间大批新订阅用户涌入,以至于OpenAI的付款系统被挤爆。
针对GPT-4的优化升级,搜狐汽车产品技术中心高级开发工程师吴奕蒙向搜狐科技表示,GPT-4是在GPT-3.5之上的延续,“把GPT3.5原先能够处理的任务基本上推到了极致。”例如此前GPT-3.5所能实现的简单问答对话,此次GPT-4的升级在于能够更专业地解决垂直领域的问题包括数学、物理问题,都能够准确地给出答案。
但在实际场景的应用上,他举例了在开发工作上的应用。在GPT-3.5版本的ChatGPT上,已能够实现将问题复制粘贴过去,它罗列出错误的可能性,再针对它所提出的可能性进行进一步的查询。在这方面,GPT-4实际上并没有优化升级,“对开发工作而言应用场景的差别不大,它仍然不能够直接解决复杂的问题。”
OpenAI也表示,在简单的谈话中,ChatGPT与GPT-4可能看不出太大差距。但是,当任务的复杂性达到足够的阈值时, GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。
“最惊艳的是它通过一张网页草图在10秒内生成代码”
与此前的GPT系列模型相比,GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示,用户同时输入文本和图像的情况下,它能够生成自然语言和代码等文本。吴奕蒙表示,“GPT-4会优化出图片处理能力其实不是很意外”,他指出,2021年OpenAI曾公布过把语言模型和图像的输入理解结合在一起的模型,名为CLIP。
(OpenAI2021年公布的语言模型与图像结合的模型CLIP)
另外,他也指出,此前微软也尝试过实现伪图形识别或是伪多模态的方式名为visual ChatGPT,将图形转变成链接输入,“如果模型在训练的时候知道该链接与其中内容,它有可能能够理解。”他也提到,之前微软也有过相关的研究发表,类似这样的图像理解,基本上原理都是将图像和文字进行一些关联后,交给模型去学习,把图像和文字的理解尽量靠到同一个程度上,让模型进行学习。
但他指出,GPT-4的图像处理能力中,更令人意外的是通过一张网页草图在10秒内生成了网站的代码,并且可运行。“按照原来的理解,首先需要做图像的文字识别,我们叫做OCR的任务,提取图片中的文字内容,但GPT4或许没有通过这样的方式去进行。”据悉,此次迭代后,OpenAI并没有公布论文,只有一份技术报告,不提供架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法等细节,因此难以确定背后的技术原理。
吴奕蒙指出,OpenAI的大方向是实现通用性,即输入后直接去处理,然后输出结果。“它不做很复杂的判定,比如说人工去写一些规则这种事,因此如果识别不同的图,需要调用它不同的理解模块的话,这显然不太符合OpenAI的思路。”
事实上,开发单纯的网页界面,这个任务本身对开发人员而言没有难度。如果将草图上的内容,通过文字描述形式交给GPT3.5版本的ChatGPT,它也能够生成网页代码。因此,吴奕蒙指出,“它最惊艳的地方对一张草图自行进行识别处理,并输出了代码。”
但他也补充说明了草图生成代码这样的功能,微软有过一个非常相似的项目,叫sketch2code,几乎是一模一样的效果。“看草图写网页这个任务和其他的写物理题数学题一样,都是一个特定的任务。”相比起“看图说话”,识图输出代码此前的相关工作较少,形式更新颖,但是背后依然有之前的大量研究工作做支撑。
(微软sketch2code)
同时,他也强调,通过草图生成代码不代表GPT能够通过任意的图写出各种复杂逻辑的代码。在开发环节上,除了工程师之外,还有产品经理这样的角色,他们将一个需求理解之后,去做一系列的设计,再将其解释成工程师能够直接通过代码逻辑去完成的内容。
目前GPT-4只是在从工程师到代码产出这部分环节进行协助,但在这之前的环节仅凭它现在的能力无法实现。“模型的输出受到输入内容的影响较大,现实工作中的问题不像是网页草图这么简单。”
因此真实工作场景下,GPT依然作为工具,人类在整理思路后输入给模型,模型输出后也仍需人力进一步判断理解,进行调整。而在复杂问题下,想把这一系列工作做好,本身就需要问问题的人有一定的专业知识和理解。吴奕蒙表示,“有一个更大胆的说法是,会熟练使用ChatGPT的程序员,会替代完全不用ChatGPT工作的程序员。”
“GPT-4的出现优先挑战了AI行业从业者”
而当GPT-4的出现又一次重新划分了“人类专属技能”的这一边界,舆论场也再次掀起关于哪些行业将会失业的讨论。
对此,吴奕蒙认为GPT-4的出现或许优先挑战的是AI行业从业者。他指出AI研究此前是切分成小任务进行研究,比如CV计算机图像,或者说NLP自然语言处理,研究深入但不通用,“一个模型能解决这个问题,但解决不了另一个问题。”
GPT-4此次的迭代进一步证实了它强大的通用性,“至少在语言的理解层面,通用性很强。”仅此一个模型,能够通过输入的方式,自行调整,完成细分领域的每一个小任务。“大公司用大模型把所有的问题基本上解决了,唯一的问题就是成本问题。”这将很大程度上影响AI行业的研究方向。
对于其他行业从业者而言,吴奕蒙认为,在当前多数工作都需要使用许多辅助工具的情况下,GPT-4或许是作为“更有效率的工具”的一个可选项。
另外,GPT-4在理解人类的维度上也实现了大幅提升。OpenAI花费了6个月的时间使用对抗性测试程序,以及在ChatGPT身上累积的经验教训来迭代调整GPT-4。他们称,“GPT-4在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。”
吴奕蒙表示,这是OpenAI长期在对齐研究(alignment research)上的尝试与突破,通过从模型的帮助性、可靠性与安全性三个方面进行优化,在大模型所掌握的数据和知识已经足够充分的情况下,如何让它发挥出真正的作用,直接帮助到人类,是更难的。“需要保证它不会出现答非所问的情况,回答的内容是可靠且安全的。