当前位置:首页|资讯|AIGC|ChatGPT|Midjourney|Stable Diffusion

AIGC系列专题一 | 揭开ChatGPT、Midjourney等先进AIGC工具的神秘面纱

作者:极睿科技Infimind发布时间:2023-05-18

原标题:AIGC系列专题一 | 揭开ChatGPT、Midjourney等先进AIGC工具的神秘面纱

Hello,这里是极睿科技AIGC观察室。

在这里,我们探索AIGC的前世今生,感受ChatGPT、Midjourney、Stable Diffusion等国内外优秀生成式AI工具为电商商品内容制作带来的颠覆性改变,帮助电商企业在AIGC大模型时代下向极致工作效率与成本的企业组织迈进。

本期内容提要:

大模型的简要认识;

ChatGPT、Midjourney、Stable Diffusion、Runway四大优秀AIGC工具的入门学习;

01 关于大模型

首先,让我们先来简要认识下大模型:

什么是大模型?

1.大规模参数:AI大模型的参数数量通常在百万级别以上,甚至超过十亿级别,如GPT-3模型的参数数量就达到了1.75万亿。

2.深层结构:AI大模型通常采用深度神经网络结构,包含数十甚至数百层,如ResNet、VGG、Transformer等。

3.强泛化能力:AI大模型具有很强的泛化能力,可以从大规模的数据中学习到规律,并在新的数据上表现出色。

大模型与传统AI模型能力的变化(简易视角)

传统AI模型为判别式模型,即给定特定的数据分布,让模型做出判断,主要应用于人脸识别验证、游戏决策路径、好评差评分析等,令AI从多条路径中判别出某一条。

大模型为生成式模型,即给出基础的数据,生成后续的结果与更多内容,如生成文章、生成图片等。大模型促成了大量生成能力的提升,所以不止于原始的单一判别,而能产生更多的结果,此即AIGC。

02四大先进AIGC工具认知入门

AIGC作为内容生成新范式,目前可覆盖至以NLP(自然语言处理)对应的文本生成及CV(计算机视觉)对应的图片和视频生成。当下,大家耳熟能详的 ChatGPT、Stable Diffusion、Midjourney、Runway分别在上述这些领域中有着出色的应用:

文本生成领域绝对的一哥——ChatGPT

ChatGPT是由OpenAI公司开发,基于人工智能技术的聊天机器人。它使用了深度学习技术中的一种网络神经——GPT,该模型是通过使用大量的文本语料库进行训练而生成的,并且可以用于各种自然语言处理任务,例如语言理解、文本生成、机器翻译等。其与电商客服智能机器人有着异曲同工之处,但ChatGPT的应用领域更宽泛,作为通用性聊天机器人,可用于教育、健康咨询等各大应用场景之中。

ChatGPT在文本生成领域独树一帜的原因:

1、大量思维建立于语言逻辑之上,ChatGPT强大的上下文逻辑能力使得其可以做复杂的思考与判断;

2、海量的数据改变了基础的信息检索与获取方式;

3、ChatGPT的便捷与易用性,使得其成为增长最快的产品;

4、对于多任务和语种的适配及自身普惠性的定位,让任何地区的任何人可以快速地感受到AI带来的巨大震撼。

目前,ChatGPT可以应用于翻译、摘要、改写、扩展、文案生成、脚本生产、信息检索、对话机器人、情感对话、智能助理等多种场景。

电商场景使用举例:当我们赋予ChatGPT以电商文案工作者的身份角色进行内容产出时,其将会要求我们提供充分的背景信息,通过不断地沟通对话来明确我们对它目标产出内容的具象化要求,在获取到充分的资料之后,即可快速为我们呈现我们需要的内容:

ChatGPT自动生成小红书文案

ChatGPT自动生成直播话术

对比两者文案可以发现,ChatGPT通过对全网大数据的积累与检索,对平台风格、内容特征及消费者偏好需求十分了解,能够为商家生产出较为适合的文案内容。品牌可以通过对生成文案进行适当修改和润色,调整到最佳结果来进行推广使用。总体而言,ChatGPT可以快速提升电商企业文案内容的生产效率。

图像生成领域绝对的一哥——Midjourney

Midjourney是一款2022年3月面世的AI绘画工具,创始人是David Holz。只要输入想到的文字,Midjourney就能通过人工智能产出相对应的图片,图片产出仅需大约一分钟时间。推出beta版后,这款搭载在Discord社区上的工具迅速成为讨论焦点。

Midjourney拥有的两种优秀创意图片生成能力:

文生图:基于提供的关键词描述,可以生成包括自然风景、建筑设计、产品设计、艺术绘画、插画等任何类型的素材。还可被用在创作故事、写作、教学等领域。

图生图:通过给定一些基础图片与关键词描述,生成对应图片。

在电商领域的应用:电商商品内容图片对可控性要求较高,更擅长创意生成的Midjourney并不适用。但其凭借出色的创意生成能力,将能在电商与零售领域中的图案、包装、环境等偏向于创意向的设计工作中大放异彩,帮助电商企业显著提升设计效率。

Midjourney+ChatGPT在电商领域能做什么?

我们可以首先通过使用ChatGPT得到基础的Midjourney Prompt参数(关键词),再通过向Midjourney输入这些关键词生成简化创意图。

举个例子:我们向ChatGPT提问:“今年的潮流趋势是什么?”通过对全网数据的洞察,ChatGPT给出了它认为的潮流趋势。

继续询问:“请你按照刚回复的,设计一件衣服出来”,询问后,ChatGPT表示无法直接进行设计,但给出了一些设计建议。

通过ChatGPT对创意关键词的提炼,我们可以得到Midjourney生成图片需要的关键词

接下来,Midjourney就可以根据关键词生成简易创意设计图

我们可以发现,这些简易设计图虽然不适用于企业的直接生产与售卖,但可以作为测款素材内容帮助品牌预测市场爆款趋势。总体而言,Midjourney+ChatGPT可赋能企业高效生成创意内容,低成本实现快速测款。

图像生成领域领导者——Stable Diffusion

Stable Diffusion与Midjourney均为AI图像生成工具,但与更偏向创意侧图像生成的Midjourney相比,Stable Diffusion具有更强的可控性与绝对的开源性:

可控性:不同于Midjourney仅能通过关键词指令驱动生成的闭环式图像,Stable Diffusion在使用时可通过一些额外插件来对细节进行微调控制。

开源性:通过下载Stable Diffusion开源代码+Stable Diffusion web UI,即可搭建为自有服务器工具,免费为大量人群提供使用。

通过Stable Diffusion将《戴耳环的少女》进行二次元化

在提示词方面,Stable Diffusion也可从内容参数与画质参数两个层面进行设置,具备更强的自定义能力:

图片来源于网络

视频可控生成领域探索者——Runway

相对于ChatGPT、Midjourney及Stable Diffusion,Runway在当前的使用成熟度还不是很高,但对于文本生成短视频及文本生成长视频、改风格视频在未来市场的应用仍是刚需,因此作为新兴赛道,Runway在该领域具备的先进技术使其仍处于行业领先地位。

实现风格迁移

实现指定命令变化

综上而言,我们可以看到,ChatGPT、Midjourney和Stable Diffusion等生成式AI工具的涌现已经可以从较大程度上帮助电商企业提升内容生成速度,降低内容生产成本。那么这些先进工具又将如何进行实际使用?在电商商品内容生成领域是否还有其他优秀AIGC工具可以赋能?欢迎大家扫码进行课程订阅,了解更多精彩内容:


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1