AIGC文生图技术是如何让AI成为“摄影师”的？

作者：和鲸科技发布时间：2023-08-28

AIGC

837年，法国人路易斯·达盖尔和约瑟夫·尼斯弗勒发明了银版摄影法。

1839年8月19日，法国政府购买了这项专利，并宣布这个发明是“免费送给世界的礼物”。

为了纪念这个重要的日子，8月19日被确定为世界摄影日，旨在庆祝摄影艺术、工艺、科学和历史发展。

摄影技术发明至今已有近两百年的历史，正因如此，各个时代才得以留存下无数经典的照片，它们见证了人类文明与摄影历史的发展与变迁。

早在1825年，法国人尼埃普斯发明了“日光蚀刻法”，用他的巨型暗箱记录了世界上第一个摄影作品——《牵马的孩子》。

1839 年，相机之父法国达盖尔发明了银版摄影法，他的摄影器材包括照相机和显影箱、化学药品、磨制金属版的工具等，一共有50公斤重，他的作品《工作室的一角》是存世最早的“达盖尔银版法”照片，也是世界上第一幅静物照片。

1884年，柯达的创始人伊斯曼发明了世界上第一款胶卷底片。为了推广胶卷，他在1888 年又推出了“柯达(Kodak)一号”照像机，开创了小型照像机的发展历史。

1975年，柯达生产了世界上第一台数码相机，标志着数码成像技术的问世。

2000年，夏普在日本联合运营商J-Phone推出了全球首款拍照手机 J-SH04，时至今日，几乎人人都拥有一台可拍照的手机，其中的专业功能越来越丰富，摄影的门槛逐步降低，人们已经可以随时随地用相机记录生活中的所见所感。

摄影技术的发展史，恰是一部从PGC（专业生成内容）到现在UGC（用户生成内容）的演变过程，但科技的快速迭代，将摄影推向了AIGC（人工智能生成内容）的新高度，对全球的文化内容生产、艺术创作、设计产业形成巨大推动和影响。

索尼摄影大奖从2008年创办，是唯一由WPO（World Photography Organisation，世界摄影组织）举办的全球性摄影大赛，在很大程度上代表着摄影领域的权威性，引领着摄影行业的发展。但是在今年4月落幕的2023年度大赛上，出现了一件引发公众剧烈讨论的事件。

本届索尼世界摄影大赛的公开创意组别头奖由德国艺术家Boris Eldagsen（鲍里斯·埃尔达格）凭借《PSEUDOMNESIA | The Electrician》斩获。但获奖后，鲍里斯却在多个社交媒体平台上公开拒绝领奖，原因令人咋舌：这张《PSEUDOMNESIA | The Electrician》，甚至是《PSEUDOMNESIA》整组「照片」，都是由AI生成的。

AI生成摄影作品这个话题在短时间内吸引了全球媒体的目光，鲍里斯在采访中说道：“对我来说，与人工智能图像生成器合作是一种共同创造，我是其中的导演。这不是按下一个按钮的问题——而且已经做到了。它是关于探索这个过程的复杂性，从精练文本提示开始，然后开发一个复杂的工作流程，并混合各种平台和技术。您创建的工作流程和定义的参数越多，您的创意部分就会变得越多。”

所谓AI摄影，是利用了文生图（Text-to-Image Generation）的技术，输入文字描述，即可生成相对应的图片，作为AIGC的主要方向之一，在内容生产等领域有着广泛的应用前景。在「AI摄影」中，人的角色就像导演，负责向摄影指导传达自己想要的「感觉」，再由充当摄影指导的AI将「导演」的想法化成现实。2023年，丽水摄影节（中国摄影家协会和丽水市人民政府共同主办的国际性摄影节庆活动）已经设立了首个AI影像艺术奖项，致力于通过全球征集、评选、展览和论坛研讨，拥抱科技，推动AI在中国摄影艺术领域的普及。

文生图（Stable Diffusion）是一种前沿的图像生成方法，融合了扩散算法、神经网络和提示技术的创新图像生成方法。通过稳定的逐步扩散过程，结合文本提示和微调技术，它能够生成高质量、创意性的图像。这一方法不仅在艺术创作中具有巨大潜力，还在设计、媒体等领域有着广泛的应用潜力。随着技术的不断演进，文生图将在图像生成领域发挥越来越重要的作用，为创作者们带来更多的创作灵感和可能性。

在计算机视觉领域，图像生成一直是一个备受关注的热点话题。文生图作为新兴的生成方法，采用了扩散算法作为核心思想，以稳定地逐步生成图像。

扩散是指物质在不同区域之间自发传递的过程，常见于物理、化学等领域。在图像领域，扩散算法通过规则化的噪声添加或移除，实现图像的加噪或去噪过程。文生图中，这一过程被应用于图像生成中，通过逐步改变像素的特性，生成与用户提示相关的图像。这种逐步生成过程保证了图像的稳定性和创造性，为生成高质量图像提供了可靠的框架。

文生图的核心网络结构是Unet，一种强大的神经网络架构，常用于图像分割和处理任务。Unet 的关键思想是将输入图像逐步分解并重建，从而实现图像的去噪和恢复。在文生图中，Unet 被用于将用户的文本提示与图像特征相结合，以稳定的方式生成图像。这个过程不仅在技术上具有挑战，还涉及到对文本与图像关系的建模，从而实现创意性的图像生成。

为了提高生成图像的质量和相关性，文生图引入了提示技术，主要包括 CLIP（Contrastive Language–Image Pretraining）和其他增强方法。CLIP 是一种文本编码算法，将文本提示转化为词特性向量（Embedding）。这些向量捕获了文本的语义和特征，使得模型能够理解用户的提示，并将其融入图像生成的过程中。这种文本提示可以确保生成的图像与用户的意图更加一致。

在文生图的生成过程中，还涉及到扩散步骤的设置。通过逐步扩散和去噪的过程，模型可以生成图像的细节和特征，使图像逐渐从噪点中浮现出来。此外，还有一些微调技术如 Dreambooth、LoRA、Embedding 和 Hypernetwork，它们可以进一步改进生成图像的效果。这些技术通过调整模型的参数和结构，使生成的图像更符合特定的需求，如某种画风或特定人物的特征。

随着GPT-4的发布，多模态生成成为其一大亮点。尽管当前扩散模型已在视觉创作领域引起革命，但它们仅支持文本到图像的单一跨模态功能，距离通用式生成模型还有一定距离。而多模态大模型的出现，则有望实现各种模态之间的转化，被认为是通用式生成模型的未来发展方向。

清华大学计算机系朱军教授带领的 TSAIL团队提出了一个创新的概率建模框架UniDiffuser，能够同时建模各种模态之间的分布，从而在多种生成任务中取得显著的效果提升。随着技术的进一步发展，多模态生成模型有望为图像、文本和其他模态之间的创意性转化带来更多可能性，为多领域的应用带来新的机遇。

近年来，基于扩散模型的文到图生成已经取得了显著进展，只需要通过简单的自然语言的描述即可生成高质量图像，这种技术在电子商务、虚拟现实、娱乐等领域有着广泛应用。然而，当前的预训练图生文大模型并不具备可控生成特定物体，人物或者场景的能力。而在大模型的广泛应用中，个性化可控生成对于许多应用领域来说非常重要。如何设计算法基于少量特定物样本，使得图生文大模型能够个性化地生成特定物体的特征并保持可编辑性成为了重要的研究方向。

2023年第二届粤港澳大湾区（黄埔）算法算例大赛已于7月15日正式开赛，其中【高效可靠的文生图方法】由清华大学朱军教授团队出题，作为擂台赛赛题，聚焦图生文大模型用于人物个性化生成，要求赛手在能够生成和保持特定人物特征的情况下，开发模型调优算法，同时争取更灵活的编辑性和更低的训练迁移代价，赛题任务为设计特定语义下的图像内容个性化生成和精细的生成控制，推动扩散模型在模型个性化和可控生成技术的发展。

大赛目前正处于报名阶段，大赛面向全球，诚邀有创新精神，并有较好的AI算法算例基础的高校学生、AI领域相关企业和研究院所的从业人员和创客等报名参赛！

大赛简介

粤港澳大湾区（黄埔）国际算法算例大赛是受广州市黄埔区政府委托，由琶洲实验室（黄埔）于 2022 年创办的算法算例领域国际性赛事。旨在通过发挥实验室在数字经济领域的引领和带动作用，推动大湾区大数据与人工智能算法生态体系建设。

大赛积极响应国家、粤港澳大湾区、广州市、黄埔区数字化创新发展战略，站位高远，走在数字经济与人工智能发展的世界前沿，同时“立足湾区、瞄准全国”，围绕大数据、人工智能、物联网、云计算等新一代信息技术，瞄准解决国家重大需求和领域尖端技术，聚焦智慧城市、智慧健康、智能制造、智慧金融等行业领域，面向全国遴选优质算法，面向全球聚集大数据与人工智能高精尖技术，面向国际招揽算法高端人才。大赛设立 1000 万总奖池，单赛道奖金高达 100 万（团队注册成员才可领奖），旨在吸引人工智能领域全球杰出人才和顶尖团队，培育和建设一批具有国际竞争力的创新型人工智能产业集群。

大赛赛题

大赛创新性地设立双赛道赛制——擂台制赛道&竞赛制赛道，凝练十道富有挑战性的问题，为参赛者提供多场景、多领域、多行业的赛题内容，促进产学研用的融合发展。

擂台制赛题：

赛题一：序列任务的持续学习

赛题二：基于语言增强的图像新类别发现

赛题三：高效可靠的文生图方法

赛题四：大语言模型综合能力强化

赛题五：跨场景单目深度估计

竞赛制赛题：

赛题一：神经隐式表示的物体三维重建

赛题二：看视频说话

赛题三：路侧毫米波雷达标定和目标跟踪

赛题四：急诊多器官多病种筛查

赛题五：快速运动场景下的视频插帧

2023大赛时间线

7月15日—9月20日：比赛开始报名及初赛（初赛阶段均可报名）
9月21日—10月6日：初赛评测
10月7日后：决赛及决赛评测
11月初—中旬：决赛答辩及结果公示
12月：颁奖典礼及奖金发放

参赛须知

(1) 登录大赛官方主页：https://iacc.pazhoulab-huangpu.com/contest/

在大赛选题中点击对应赛题“立即报名”按钮，提交报名信息，即可参与比赛。

(2) 确认报名信息、组队信息准确有效，如查出小号、冒名等情况将被取消参赛资格、成绩及奖金。

(3) 参赛对象：大赛面向全社会开放，个人、高等院校、科研单位、创客团队、企业等均可报名参赛。各赛道中每位选手仅能加入一支参赛队伍，每支队伍组队上限5人。

(4)第二届粤港澳大湾区（黄埔）算法算例大赛共10道赛题，同一选手（同一姓名、手机号、身份证号）可报名多个赛道。

注：针对竞赛制赛题，对应赛题支持单位（涉及题目编写、数据接触）的人员禁止参赛、禁止委托他人参赛。主办方的所有员工（含实习生）可以参赛，但只能参加初赛及复赛排名，不能晋级答辩及后续环节。

参考资料

[1]简书.世界摄影日丨世界摄影发展史

[2]澎湃网.观察丨摄影师拒绝AI照片获奖背后，AI给艺术带来了什么

[3]机器之心.清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

来源：算法大赛中心

图片：图源自网络，侵删

文字：张诗悦王冰

编辑：刘科呈张诗悦

初审：徐行王栋

终审：张海

和鲸将全力支持大赛开展，并衷心祝福参赛者取得佳绩！

AIGC文生图技术是如何让AI成为“摄影师”的？

大赛简介

大赛赛题

2023大赛时间线

参赛须知

参考资料

推荐体验

相关资讯

享受混沌：让AI摄影师免费帮你打工

Midjourney亮文生图杀器设计师、摄影师饭碗难保？下一步将是文生视频

全球首个AI摄影师服务真的能取代真人摄影师吗？

Midjourney重磅升级，细节拉满，让摄影师恐惧

路人贾·摄影师的AI绘画课

近期资讯

如何轻松安装小米摄像头内存卡，保障家庭安全

如何顺利绑定微信账号，享受便捷生活的全面指南

如何通过电脑高效操作手机的多种方法与技巧

如何轻松查看vivo手机上的WiFi密码，实用方法全解析

朋友圈中的文字分享：真实表达与共鸣的独特魅力

详细步骤教你如何在苹果手机上开启国际漫游服务

如何在CorelDRAW中轻松绘制美丽的波浪线技巧

红米手机：高性价比与强劲性能的完美结合，值得预算有限消费者考虑

如何轻松解压7z文件：详细步骤与工具推荐指南

如何在WPS Office中轻松调整行间距提升文档美观性

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响