利用DALL·E生成的 AI 图像(图片来源:OpenAI)
OpenAI 又公布了最新重磅消息。
北京时间9月21日凌晨,美国OpenAI公司宣布,文生图 AI 工具迎来了第三个版本DALL·E 3,比上个版本仅过去17个月左右。
OpenAI 表示,DALL·E 3比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。同时,DALL·E 3还将与ChatGPT集成,原生实现多模态输出,Plus和企业版用户通过文本就能直接在ChatGPT中生成各种类型图片,不仅加强提示词的生成图像体验,而且增强模型理解用户指令的能力,图像效果也有巨大提升。
OpenAI公司CEO奥特曼(Sam Altman)表示,在他看来新的DALL·E 3效果相当惊人,它将在接下来的几周内向所有ChatGPT Plus付费版/企业版用户开放。“如果不尝试的话,很难理解这是多么了不起的事情。”
据悉,OpenAI成立于2015年,致力于开发和应用人工智能(AI)技术造福全人类。目前,OpenAI公司估值高达270亿美元左右,年营收已接近10亿美元。
2021年,OpenAI推出了DALL·E 和CLIP(对比图文预训练),能连接文本与图像的神经网络。其中,DALL·E基于文本直接生成图像,而CLIP是一个单独的模型,其作用是理解输出图像并为其打分。DALL·E生成的图像由CLIP模型进行筛选,以呈现最高质量的图像。
2022年,OpenAI升级了文生图能力,发布DALL·E 2,提供了更高的图像分辨率、更低的延迟以及编辑原始图像的能力。而且公开报道现实,DALL-E模型是GPT-3的多模态实现,共拥有120亿个参数,使用从网络上收集的文本和图像对进行训练。而且使用零样本学习从描述和提示中生成输出,而无需进一步训练。
剑桥大学机器学习教授尼尔·劳伦斯(Neil Lawrence)曾认为,DALL·E这类模型有能力存储世界信息,并以人类认为非常自然的方式进行推广。佐治亚理工学院交互计算学院副教授马克·里德尔(Mark Riedl)则认为,DALL·E的演示结果表明它能够协调地融合概念,这是人类创造力的关键要素,同时他指出DALL-E绘制的插图比过去几年其他的Text 2 Image(由文本生成图像)系统要出色许多。
时隔500多天后,此次发布的DALL·E 3拥有多个新特性,钛媒体App简单梳理如下:
简单来说,利用ChatGPT,新的DALL·E 3实现了更准确的图像生成能力,更好的体验效果,以及更安全的文生图规范。
OpenAI研究员Sandhini Agarwal 表示,她对DALL·E 3的安全性“高度有信心”,并表示该模型在不断改进。
值得一提的是,目前,国内外已经有多个对标DALL·E的文生图模型AIGC公司和应用,其中包括独角兽公司Stability AI的开源文生图模型Stable Diffusion,Midjourney,英伟达的Perfusion模型,阿里巴巴的通义万象,智源研究院的开源双语模型AltDiffusion,HiDream智象未来的Pixeling(千象),阿里大文娱旗下妙鸭相机,网易伏羲旗下模型丹青等。
然而,当前 AI 生成的图像仍存在一些问题。华盛顿特区一家法院8月裁定,根据美国法律,未经任何人工输入而由人工智能创作的艺术作品不能获得版权。
当前,OpenAI仍面临多起诉讼。其中,美国作家贸易组织代表约翰·格里沙姆(John Grisham)和《权力的游戏》小说家乔治·马丁(George RR Martin)等作家起诉该公司,指控ChatGPT非法训练学习他们的作品。
(本文首发钛媒体App,作者|林志佳)