当前位置:首页|资讯|AIGC|GPT-4

AIGC“尖峰系列” | 关于GPT-4,8+2个值得注意但容易被忽视的点

作者:源码资本发布时间:2023-03-18

原标题:AIGC“尖峰系列” | 关于GPT-4,8+2个值得注意但容易被忽视的点

3月15日凌晨,OpenAI发布了多模态预训练大模型GPT-4,关于AI能做什么和不能做什么,更多结论开始清晰。

在去年ChatGPT发布之后,源码资本合伙人黄云刚,作为第一批抵达硅谷的投资人,与OpenAI团队深入交流。OpenAI团队也惊讶于市场对ChatGPT的积极反馈,他们告诉源码,现在发布的是60分的东西,100分的东西已经做好了,而正研究的是120分的东西。

如今的GPT-4想必就是“100分”:它不仅是考试达人,以前10%的成绩通过律师考试,还在诸多知识考试表现中达到清北应试Top学生水平。RLHF明显提高了对事实性的保障,在敏感内容和不允许的内容上,GPT-4的回答合适性都明显变好了很多,“胡说八道”水平也显著降低。更重要的是,多模态大模型表现出的高水平读图能力——能读懂图片中的文字,能力与直接读文字似乎无异,还能读懂图表、物理场景抽象图。

OpenAI在去年8月完成模型后,花了半年时间细调alignment和risk mitigation。事实上,从GPT-3到现在,所有的进步都是可以预料的,但是真实看到了还是很震撼。这不禁让人猜测,120分的模型,该能达到怎样的智能?

也许唯一限制我们的,只是我们的想象力。

源码顾问、积木文档CEO丁立也一直关注新技术的进展,在发布会后,他总结了一些GPT-4值得注意但容易被忽视的点,与各位分享。

1. GPT-4的中文能力好于GPT-3.5的英文能力。该评价建立在MMLU数据集GPT-3.5的英文能力是70.1%,GPT-4的英文能力是85.5%,GPT-4的中文能力是80.1%。

2. GPT-4的多模态中的输入可以是文字或图片,输出仅为文字,并且图片输入尚处于研究阶段,暂不开放。

3. GPT-4在参与各项考试时,在多项选择题中用了0.3的temperature,在问答题中用了0.6的temperature。由此可见在不同场景下动态组合不同的temperature等超参数可能对应用层的性能能带来显著提升。

在各种大语言模型的底层通常都会有一系列可供调节的参数,用来优化模型在不同场景中的应用表现。这类参数在技术上通常被称为超参数(hyperparameters),通常像ChatGPT UI这样的面向最终用户的产品不会提供这项超参数的修改功能,但是ChatGPT和GPT的api层面都支持开发者自定义这些超参数。

temperature是超参数中最重要的一个,取值为0-1,可以被简单理解为AI的发散程度或者说放飞程度。temperature越大AI的输出结果就会越有创造力,但是可能不确定性也会更大,逻辑性会更差。

反过来temperature越小,ai的回答就越保守。

甚至当temperature为0的时候,相同的问题,ai的每次回答几乎完全相同。

4. 是否进行RLHF与否基本不影响模型解答选择题等客观题的能力。未经RLHF的基础版本各项考试的平均得分是73.7%,RLHF后的版本是74%。

5. 为了提高数学推理能力,GPT-4在训练数据中引入了小学数学习题数据集GSM8k。

6. 图像输入部分来看,GPT-4有较强的OCR能力。System Card里分别以让GPT-4解读Instruct GPT论文的截图、带有文字的讽刺漫画作为举例。

OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文本转换成可编辑、可搜索文本的技术。简单来说,OCR 能够将图像中的文字识别出来,并将其转化成计算机可读的文本格式。

在GPT-4中,OCR 能力使得模型可以对输入的图像进行文本识别,并将其转化为文本格式。这种能力可以在处理包含文本的图像时非常有用,例如解析新闻图片中的标题、摘要和正文等信息,或是从拍摄的文档图像中提取文字信息。

通过结合 OCR 技术和自然语言处理技术,GPT-4 可以更全面、更准确地理解输入数据,并在更广泛的场景中发挥作用。

7. GPT-4在测试引入了red team来进行对抗性测试以识别潜在风险,尤其是该red team事实上是由法律、医学、生物、核安全、人机交互、网络安全等各个领域的专业人士组成,而不是普通的数据标注工人。上述red team发现GPT-4已经具备了判断某一技术细节是否存在安全漏洞的能力,并且具备重新设计一些在网上公开的化合物的能力,甚至能够识别改变致病性的突变片段,但暂时不具有合成新的化合物的能力(System Card的2.10中提及,该red team通过集成分子搜索工具执行对 PubChem 的web查询并从纯文本中获取 SMILES——一种纯文本来描述分子结构的编码规范的方式实现)。并且OpenAI注意到了由于上述特征,GPT-4可能已经具备了军民两用的属性,并致力于确保其不违反有关的不扩散公约。

8. OpenAI 使用fine-tuning版本的GPT-4来构建独立的内容过滤器以尽可能地双向过滤有害的输入或输出。该过滤器由于GPT-4本身的性能改善,而得到显著的性能的改善。OpenAI将于近期发表一篇论文来进一步分享这项工作。

另外API层面需要注意的:

1. System消息将具有更好的遵循性。即在api中预置人设prompt会更好使。

2. 将提供8k和32k两种token的版本。英文差不多1个token约等于四分之三个单词,中文1个汉字等于2个token,输入和输出、历史消息均将合并计算。即对于纯中文场景和纯英文场景而言,8k版本支持最多4000个汉字或6000个英文单词,32k版本支持16000个汉字或24000个单词。

备注:

MMLU数据集https://paperswithcode.com/dataset/mmlu

小学数学习题数据集GSM8k:https://paperswithcode.com/dataset/gsm8k


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1