生成式AI的爆火,给产品设计带来了更多可能性,产品工作人员可以尝试将AI技术落地至应用中,比如本篇文章里,作者就尝试基于生成式AI梳理了一份AI相机应用的设计方案,一起来看看。
文章结构:
一、用户群体 1. 一般用户
女性,不了解AI生成技术,不会使用,对于繁琐操作不了解,没有系统学习过摄影技术的用户(绝大部分女性)。
产品核心,简单,可视化,比起繁琐的操作,越简单这类用户使用的可能性就越大,越是视觉化的展示,该类用户的操作可能性就越大。
产品一定要具有社交功能,同时要有追随热度的准备。
产品效果一定要好看,而且玩法功能要是不是更新/推出新玩法,保证用户热情。
2. 核心用户
一般用户中,对于AI写真/艺术照片等功能感兴趣,同时愿意尝试的用户,该类用户付费使用会导致部分用户流失(先付费再使用不合理)。
妙鸭相机模式:
应该先尝试后定制模式,用通用模型生成结果加AI换脸,使得结果更像用户,这样用户尝试满意后再定制,可能机会更高。
3. 专业型用户
对AI绘画/摄影有了解的用户,该类用户需要在平台获利,才能长久的为产品带来优质的模版。可以考虑在社交版块对这些用户生成的模版进行付费买断,或者感知使用次数付费。
二、用户需求 1. 社交性需求
社交需求是最常见的用户需求,主要分为三类。
第一类,跟风爆点/热门类话题。
该类需求和当下热度时刻相关,2022年的原神大头特效就是最好的例子。
该类特效可以通过开源的deepfacelab完成,AI相机想要满足该类用户的需求,必须做到紧追互联网热点,如在2023年4月推出AI相机,最好的模型应该是“多巴胺服饰模型”
关注社交热度完成部分可行功能,是AI相机长期运营的一种模式。
第二类,创造新话题内容/热度的需求。
这类主要是内容创作者长期需求,在互联网的主要表现为,新内容/风格的传播,如“复古风”复刻DVD的质感特效,获得流量。
对于该类用户的需求,满足一次就是一次巨大的风口他们本身就是流量的创造者,同时该类用户的需求是最难满足的,互联网的流量不可确定性的因数太多,对于AI相机(核心为生成式AI)来说,满足多样化的风格是基础,如前些年流行复古,为了流行赛博朋克/革命元素都有可能,尽可能满足模型的多样性是对于这类用户最好的回应。
第三类,好看/有趣/艺术/独特的内容分享。
这类用户需求更贴合AI相机的能力,该类需求满足方向为——引起用户的分享欲望,这类社交需求核心就是分享欲,AI相机通过生成内容让用户产生正向落差(远超预期的照片),会激发该类用户的分享需求。
同时该类用户的自发推广,是产品推广必要的推动。AI相机需要满足的是夯实内功,打磨AI生成与人物融合的质量,AI生成模型的出图率与质量等最基础的质量问题。
2. 自我满足性需求
自我满足性需求,同样是AI相机最核心的用户群体,AI相机在某种程度上是和美颜相机是一样的。都能提供快速的,低成本,无痛的身体改造。
美颜相机的出现给予外貌普通的女生快速获得外貌资本的可能性,这也是美颜相机在需要展示外貌资本行业——直播行业普遍存在的原因,AI相机在某种程度上能部分(随着技术提升完全)取代美颜相机。
自我满足需求在用户个体的表现有以下几点:
1)外在的展示需求
该类需求和美颜相机一样,希望通过技术手段获得外貌资本,用于在社交/聊天/直播等地方获得优势。
技术不完善的Stable Diffusion直播生成变脸:
技术较为完善的deep face live直播换脸:
AI相机在实时直播行业的影响在不断的冲击美颜相机的市场份额,在该需求层面下,AI相机能完成的结果远高于美颜相机的,在个人信息的保留——用户更想她自己,这一核心领域AI相机的表现出色,而这一点恰恰是用户内心最敏感的点,美颜相机下的五官信息变化较大,AI换脸相机保留用户五官信息,这能给予用户心理上的慰藉,
但是deepface核心问题在于肖像权,所有生成式AI的脸部融合结果比起换脸更加安全。
2)内在展示需求
于外在展示需求不同,内容展示需求更具有私密性,内在展示需求的核心在于,用户的自我取悦。其表现形式上个人写真等不外传隐私性极高的照片上, 这类需求主要是女性用户对于自身“美”记录的想法,是绝对私密的内容,同时私房照行业的乱象对于这些用户来说也是“劝退”的关键。
AI相机如今的技术能满足这类用户的部分需求,而且AI相机更具有私密性,不存在人为的数据泄露问题,同时也减少了用户家庭环境对于该类用户指责。
(该类用户转化为付费用户的概率高——定制个人模型的可能性高)
通过生成式AI,获得用户喜欢的写真结果,让用户能获得取悦自己的照片,并且让用户几乎免费获得高费用写真的结果(穿搭/妆容/专业摄影费用高昂),同时用户有选择风格的权利(“私房照”的选择权利大部分在拍摄者手中,用户选择权利较少)在AI生成恰恰是用户权利最大的情况,用户可以按照心情生成自己想要的结果,同时还有指导拍摄的样式(在现有的结果上提出需要,能减少摄影者的“主观想法”)。
技术要求为更精细的人体生成结果/环境生成结果,对于平台的要求为绝对私密的内容保护,可指定的后期修图。保证用户内容不会外泄。
3. 记录型需求
1)情侣记录需求
这是最普遍的用户需求,一般情侣用户喜欢记录自己相处中的美好细节,这时候AI相机能提供场地/服饰等选择,对于用户来说会使得照片的背景环境更加丰富,照片的实际出片效果更好(满足用户背景优化/色调优化)。
对于某些原因无法相遇的异地恋用户,定制一张二人的情侣照片也是对于遗憾的一种弥补(AI生成式的照片定制)。
对于情侣来说头像也是具有重要记录意义的,但是网上找头像容易出现问题,个人定制头像比较麻烦,不能随心所欲,AI生成的恰好能满足部分用户需求(如q版头像),生成结果完全能作为情侣的头像。
2)宠物记录需求
这类需求的主要表现如猫狗vlog,用户会记录宠物的日常生活,该类用户对于宠物的感情深消费大,构造宠物的独立模型,生成一些宠物私房照对于该类用户来说有不错的吸引力。同时AI相机可以获得宠物的独特照片,让其具有不可替代性。效果如下。
有关于自己狗狗的有趣照片,对于有宠物记录需求的用户而言,这是非常有趣的记录信息。
3)怀旧记录需求
照片原初的作用其实是记录,在相机价格高昂的年代,照片承担的是用户记忆载体的需求,如今的照片功能更偏向于社交,让照片的记录本质其实是很多用户潜藏的需求,用户可能遇到过图片太多要清空的情况,然后很多照片处于“食之无味,弃之可惜”的情况,其核心原因是该类照片的记录回忆不足以让用户产生强烈情感波动,这类照片在摄影价格高昂的年代其实不具备拍摄可能。
限制拍摄/照片的产生结果,某种程度上是可以减少这样的照片,我们可以在AI相机中推出“每日照片功能”,用户每天上传一张照片,同时接合chatgbt的辅助,让用户写下简短的“今日心情”,AI相机会将图片/文字/时间/风格接合做出一张日历图片,“每日图片”上传时间满一年,我们会将日历打印送给用户,让用户重新捡起这一年的记忆,通过唤起用户记录需求,培养用户“日记习惯”。
4. 商业化需求(B端需求涉及到sd工作流暂时不做介绍)
1)产品设计图
AI生成图片,高效准确,对于如汽车/音响/建筑物等存在现实模型的产品,用户可以根据pormpt获得批量产品结果,对于设计来说是生产力工具。
产品设计工作主要涉及到lora训练/contrelnet使用等,非c端功能,具体工作流,有需要我下期再讲。
2)买量广告素材
买量游戏需要海量的游戏素材,生成AI的搞笑低价对于买量游戏来说是最好的生产工具。
3)服装模特
众所周知,略。
三、技术路线与其优势方向(简易说明) 1. 常见的图像生成模型
1)对抗生成网络
优势:
gan模型实例——年龄变化:
风格变化:
gan实例,风格迁移(CycleGAN):
gan实例,高保真人像图片生成(stylegan3模型的人体毛发生成效果逼真,gan网络在高保真图像生成上有很强的效果):
gan网络对于AI相机的意义在于,能给予用户一个稳定照片玩法,如脸部变老,变风格等,这些在视频软件工具中的常见功能,用户可以通过这件功能的吸引去开始使用AI相机,低成本的内容生成,可以提升c端用户数量。
2)Diffusion Model扩散模型
优势:
diffusion实例,风格迁移:
目标图片:
生成结果:
diffusion实例,prompt(提示词在AI绘画具有很重要的地位,有可能以后再讲)生成。
lora的使用(dva风格的lora)
sd还有很多实际上不错的生成效果/生成方式,在这暂时不介绍,有兴趣可以在sd工作流梳理中进一步介绍。
diffusion是AI相机的核心,作为生成AI负责用户需求的生成,但是生成的消耗较大,如果免费c端成本较高,可以通过gan满足部分用户好奇,在给予每个新用户部分使用通用模型的权限,方式将用户数量提升。
2. 其他基础技术
图像融合。
图像融合技术是生成式AI和用户实际数据产生效果的最后一步,融合产生问题会很大程度上减少用户对AI相机的依赖性,同时图像融合式实时AI相机的重要攻克难关。
姿态点估计/景深估计/边缘检测/图像檫除。
略。
四、产品设计——功能设计 1. 用户权限设计
1)基础用户权限
开放部分显卡算力消耗低的功能免费使用,如stylegangan的年龄变化功能,风格迁移等功能。
开放有限次数的AI写真/艺术照等,AI写真照采用通用人物模型生成(在生成结果融合用户目标图片给予用户初次体验AI写真的效果)对标妙鸭相机的功能。采用先体验后定制模式。
开放社区功能,用户可以浏览社区用户的生成结果和操作步骤,但是无法复制粘贴内容。
开放付费渠道/推广渠道,用户可以通过系统任务获得付费货币(推广产品/推广链接/推广码),然后使用单次付费渠道享受付费功能,
2)付费用户权限(定制模型用户)
3)会员付费用户
4)企业级用户
对于需要批量生成结果用于推书/买量素材等的用户,开放批量生成渠道。
对于有AI相机直播需求的用户,可以定制AI相机直播软件,适配用户电脑,同时提供后勤服务。
2. 写真功能
stable Diffusion 对于图像生成效果有部分是极好的(在特定的prompt下),该类结果对于用户而言是社交/收藏的选择。
1)一般写真使用流程
写真功能是AI相机最核心的功能之一,我将工作流程中的用户反馈细分,AI绘图的关键问题有两种,一种是用户对生成结果直接不满意,一种是对脸部表情不满意,二者的实际处理方式不同,生成结果不满——选择重新生成的,脸部结果不满意——采用模型中的脸部修复功能/选择直接融合用户脸部信息等,保证尽可能的想用户,如何还不满意开方人工服务。
同时在用户重绘内容时,不应该再次排队,应当预留用户的操作响应时间,保证用户的良好使用体验,用户结果生成后的10s内,服务器依旧分配给该用户,在10s没有进行再次生成,结束任务用户重新排队。
2)私密写真
私密写真是部分自我满足需求用户取悦自己的一种方式,如暴露的衣物加诱人的姿势构成的图片,这些图片女性部分是用作收藏(同时部分用户会用作贩卖——福利姬模式)是否开放私密写真模式这存在很大的讨论空间,但是不变的是,在这发面无论是有需求的一般用户也好,还是有商业目的用户也好,她们都有很高的消费欲望(一套私房照500起步,同时会有不利的情况发生)。
私密照片应该作为限制功能,划分到提示词的高级模块,保证该类功能不会被滥用,具体功能为用户选择了高级模块后,可以自主输入prompt,用户同时在图片prompt(给用户选择的生成内容提示词用图片展示)内容扩展——增加部分普通模式不具备提示词。后续会介绍。
3)艺术图片生成
艺术照片和写真不同,用户能接受图片的怪异程度/不想自己的程度高,核心是艺术照片好不好看。
艺术中用户的五官没有图片效果重要,艺术照片的核心是效果,同样的部分艺术照片想要实现AI换脸的难度极大,不太现实,所以艺术照片的生成流程应该增加是否检测到人脸布置。
艺术照片的流程:
同样艺术照片也开设立高级模块(高级模块中也有艺术照片)。
4)背景照片/情侣头像生成功能
用于用户生成喜好背景,用于手机壁纸/生成画面选择等(高级模块)。
用户根据需求生成情头。
具体功能设计略(功能较为场景)。
5)图片玩法功能
单张图片说话功能Stable diffusion+wav2lip效果如下(无法展示动态额)。
这是生成结果,限制图片结果真实256*256,限制较大。
玩法2,生成动图Stable Diffusion AnimateDiff软件效果。
效果中会出现很诡异的生成结果,现阶段实用性一般,同时真人模型效果一般。
玩法生成漫画,输入买火柴的女孩。
生成结果存在问题,但是效果能接受,后续添加用户写台词功能,会是很不错的一种玩法。
玩法gan网络的年龄变化,风格迁移等。
6)指导拍摄功能
生成式AI对于用户来说是全新的获得照片模式,但是很多时候AI商用往往是通过特效/图生图改变风格将AI作为获得图像玩法的一个工具。我简单的梳理一下美颜相机和和AI相机的操作逻辑。
其实AI生成,用户是没有操作干预的,AI是基于提示词的生成结果,这里就会有一个巨大优势,当下环境无法满足摄影需求,但是AI可以提前生成相似结果。生成不受到环境的干预。
场景案例:
明天和朋友外出游玩,需求拍摄好看的外景照片。
AI相机可以提前预设场景/用户姿势/光线/镜头等摄影参数,生成结果,用户对于生成结果满意。相机可以更加生成图片的prompt,在现实中找到对应的教程,提前知道用户操作,或者用户可以记录为笔记,在有需求的时候进行系统指导拍摄(人物框模式)。
通过指导拍摄,用户会获得实际的参与感,让AI相机发挥相机的基础职能。
7)预测拍摄功能
上面提到AI相机生产不受到环境影响,同时AI还能做出预测结果。
场景案例:
用户健身;
用户健身其实是个长期坚持的结果,用户短期很难获得成效,但是AI可以根据用户训练模型针对的做出预测训练效果图,给予健身用户目标。
用户减肥——同理;
房间装修预测;
用户根据生成结果,廉价的获得无数方案,用于指导装修。
预测效果对于AI相机来说是个实用性很高的功能,特别是涉及到设计类方面其实是个tob的工作流。
8)社区功能(简单版)
社区交流版块:
用户分享生成/拍摄/有趣的事情。
功能:
社区商业版块:
9)用户付费功能(简易)
1)一般模块
采用图片展示代替输入prompt的形式,让用户可以完成视觉操作。
如提示词雪山,改为的图像展示。
相机镜头的选着也是如此,繁琐的提示词不利于用户的选择。
其中的镜头语言更是让人摸不着头脑,光线也是繁琐。
同样采用图片展示加标签模式,方便用户使用。
参考常见相机的滤镜功能。
简化用户操作,让小白也能懂怎么玩AI相机。
提升词模版化。
根据基础模板设计用户选择的提示词(视觉操作)。
prompt对于专业使用的人来说是有迹可循的,但是对于普通用户来说属于是云里雾里,所以模版化提示词是必须的(举例说明:prompt就想做饭,调料的多少对于厨师来说不是问题,对于小白就不一样了,模板化prompt就是方便面调料包,保证用户最基本的产出结果)。
4. 高级模块
开放提示词输入权限。
添加局部重绘功能。
添加更多的提示词展示功能以及AI支援功能,让用户更了解这个参数的效果。
五、风险 1. 色情内容生产
核心问题,如何限制捏,我也不知道呀。
2. 肖像权问题
同理。
备注:有不足的地方希望大伙多多指点,小白真的很想转行去做产品捏,如果有想要我分析的行业也能告诉我哦,跨行找工作太难了,呜呜呜。
本文由 @杨文洪 原创发布于人人都是产品经理,未经授权,禁止转载
题图来自Unsplash,基于CC0协议