当前位置:首页|资讯|GPT-4

科技有狠活︱GPT-4会看图说话能人格cosplay,背后有啥黑科技?

作者:封面新闻发布时间:2023-03-16

原标题:科技有狠活︱GPT-4会看图说话能人格cosplay,背后有啥黑科技?

封面新闻记者 张峥

人类问GPT-4:把气球的线剪断,会发生什么?

GPT-4:会飞走。

如果说GPT-3还停留在“对人类语言的理解分析,并作出回答”这样单一酷炫的技能上,那么它的下一代GPT-4,不仅会“说话”,还能识图。在人类不停地“调戏”GPT-3时,我们都成为了它的训练师。

GPT升级的背后,是它从语言大模型到多模态大模型的跨越。GPT-4牛在什么地方?什么是多模态大模型?未来,进行苏格拉底式提问教学的还是不是人类……3月16日,封面新闻记者邀请了四川省计算机学会自然语言处理专委会秘书长、博士生导师陈晓亮为你解读人类之友GPT-4的高能之处。

体验:GPT-4能识图了

把气球的线剪断,会发生什么?人类问升级版GPT-4。GPT-4:会飞走。

面对人类提出的带有图片的问题,GPT-4作出了从识别到理解分析,再到回答的连贯动作。

陈晓亮第一时间试用了GPT-4,感受到了质的飞跃。

“作为多模态聊天机器人,GPT-4最大的使用亮点就是能接受图像和文本的共同输入,输出文本回复,具有明显的图片理解能力。”

此外,从一些与ChatGPT3.5版本的逻辑问题输出结果来看,例如,多人会议时间协调问题等,GPT-4在收集信息、解决问题、输出结果等方面有了质的飞跃。它更加聪明、有逻辑和创造性。

ChatGPT-4可以生成和编辑创新型和技术性的文字内容,例如制作抽认卡、通过模拟律师考试等。它能够根据网页界面草稿生成网页代码,能够更好地适应用户的需求和风格,提供适合使用者个性化喜好的互动体验,即GPT-4能够进行人格cosplay。

人格cosplay

“GPT-4具有更强的泛化能力和适应能力,可以根据不同的任务和领域调整模型的行为和风格。而GPT3需要更多的前置知识和指导,即新开一个聊天,不需要慢热,直接能够给出专业回答。”

扮演销售经理的对话

“假设你是一个采用引导性教学手段的高校老师,请给我讲解下列方程的解法。”人类“学生”提出要求。结果GPT-4不会明确地告诉答案,而是给出了各种引导方法让提问者回答。

苏格拉底式提问

多模态大模型

在陈晓亮看来,GPT-4与GPT-3最大的不同和改进有几点:第一,GPT-4是一个多模态大模型,可以处理文本、图像、音频等多种类型的输入和输出,而GPT-3仅是语言大模型,只能处理文本输入和文本输出。

第二,GPT-4的参数数量是GPT-3的16倍,达到了1.6万亿个,而GPT-3只有1000亿个参数。GPT-4使用了新的训练方法和优化技术(未披露和开源),提高了模型的效率和稳定性,而GPT-3使用了传统的Transformer架构和自回归方法。

他解释,所谓参数数量,指的是模型的所有带参数的层的权重参数总量。权重参数是神经网络中用来调整输入和输出之间关系的数值,它们可以通过训练数据来学习和优化。参数数量反映了模型的复杂度和表达能力,一般来说,参数数量越多,模型越强大,但也越容易过拟合和消耗更多的计算资源。

超强的学习能力

疯狂地学习,出其不意地迭代。在人类不停地“调戏”GPT-3时,我们都成为了它的训练师。“GPT和new bing快速增长的多国、多语言用户,以及海量真实问题都促进了Chat GPT升级为Chat GPT Plus。”

“GPT能够升级更新如此之快,最重要的核心能力是它的生成能力和学习能力。”陈晓亮解释,生成能力指的是它可以根据不同的输入和目标,生成各种类型和风格的内容,从而满足用户的需求和期望;学习能力指的是它可以不断地从大量的数据中提取知识和规律,并且可以根据反馈和评价进行自我调整和优化。

不过,他也表示,从使用来看,Chat GPT-4目前还有一些限制,例如每次输出最多7.5万个单词,每4小时限制发送100条消息;目前对于中文支持也不够完善,中文回答和英文相比明显偏短。“另外还是少量存在生成虚假信息等问题,可能受到对抗性提示词的影响,导致输出错误或不合理的内容。”


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1