引领全球人工智能热潮的OpenAI,终于推出了它的新一代多模态模型GPT-4。
新一代模型能够同时接收图像和文本输入,比上一代模型GPT-3.5(ChatGPT的技术基座)参数更多、更安全,“比以往更具创造性和协作性”,并且“由于它有更广泛的常识和解决问题的能力,可以更准确地解决难题。”
这一次的发布,也比以往更加神秘,OpanAI没有公布GPT-4相关技术细节,标志着该公司从非营利性研究实验室向营利性技术公司的全面转变。
更出色的人工智能
GPT-4在安全性和精确性上都有巨大的提升。
OpenAI称,GPT-4比GPT-3.5对受限制请求做出回应的可能性低82%,编造内容的可能性低60%。
更重要的是,不同于ChatGPT仅能接收文本输入,GPT-4可以响应图片。向它展示一张冰箱里东西的照片,然后问它能做什么饭,GPT-4会尝试用照片上的原料生成菜谱。
给它一张气球被线拴在地上的图片,然后提问如果把线割断会发生什么,GPT-4会回答“气球会飞走”。
此外,OpenAI的新模型在基本推理方面的表现比ChatGPT更好,可以解决更复杂的难题。
据媒体拿到的演示版本,GPT-4能够用字母“g”开头的单词概括OpenAI的公司简介:
“GPT-4, groundbreaking generational growth, gains greater grades. Guardrails, guidance, and gains garnered. Gigantic, groundbreaking, and globally gifted.”
GPT-4在美国律师执照考试(UBE)上的表现也远超GPT-3.5,GPT-3.5的得分是倒数10%,而GPT-4是前10%。
AI初创公司Hugging Face联合创始人Thomas Wolf对媒体称,理论上,结合文本和图像的多模态模型能够更好地理解世界:
“它可能能够解决语言模型的传统弱点,如空间推理,”
艾伦人工智能研究所的Oren Etzioni对媒体表示:
一家变味儿的公司“GPT-4现在是评估所有AI模型的基准,它在许多方面的提升都非常显著。”
然而,和之前发布GPT-3、2的时候不一样,OpenAI这次没有透露GPT-4有多大,也没说它是如何打造的——没有透露数据、计算能力或训练技术。只是模糊地说,GPT-4的参数更多,是一个更大的模型。
以前,OpenAI会公开这些数据,给同行参考,比如GPT-2有15亿个参数,性能更好的GPT-3参数是它的100倍。
Wolf对媒体抱怨道:
“OpenAI现在是一家完全封闭的公司,科学交流类似于产品的新闻发布,”
竞争变得更加激烈了,Google旗下DeepMind的多模态模型Flamingo在急起直追,其他互联网巨头也都正在AI上发力。OpenAI如今是一家背靠微软、寻求赚钱的营利机构,而不是一家纯粹的人工智能研究所了。
GPT-4的早期版本已经在微软产品中上线。OpenAI还开放了API接口,让机构商用。目前,已经有支付平台Stripe、语言学习平台多邻国、摩根士丹利和冰岛政府(冰岛试图使用GPT-4来保护冰岛语言)等多家机构前来寻求合作。
GPT-4的访问权限将优先提供给注册过等候名单的用户以及付费购买ChatGPT会员的用户,但目前仅限于文本输入。