ChatGPT这一股东风,缓缓拉开了极富想象力的AIGC创业空间。当创业者把AI工具引入到自家业务场景后,技术上遇到了哪些问题,业务上得到了哪些改变,有哪些心得体会?这是当前AIGC浪潮从概念讨论进入场景落地阶段后,大家普遍关注的话题。
在AIGC系列活动第四场——《AIGC如何深刻影响产品、研发和运营?》中,我们通过《AIGC“尖峰系列”丨全球厂商开卷大模型,创业者可以考虑这三个机会 》一文,跟大家分享了微软中国数据科学与人工智能解决方案事业部总经理李磊对于“ChatGPT的底层逻辑”、“OpenAI技术与商业价值探索”等话题的独到观点。今天,我们将从实践演练和效果角度带来第二篇重磅内容——ONES联合创始人&CTO冯斌、游戏AI平台GamesMind创始人&CEO张大卫分享的“企业级研发管理平台及游戏AI平台视角下的AIGC实践与思考”。
未来,AI到底会在人类主宰的这个世界扮演怎样的角色?AI是否可以成为一个高效的助手?从他们的分享中我们或许可以得到一些答案。
以下为嘉宾演讲内容精选:
今天很高兴在这里分享一些我们的想法,以及在工作中的一些实践。ONES的主要工作是帮助软件团队解决产品、设计和周边团队的协同、以及项目管理等问题。ONES本质上是一家软件公司,我们有多个研发管理相关产品,在2020年收购了Tower团队协作工具,从而覆盖各类规模团队的多场景项目管理。
AIGC在最近半年的快速迭代和发展有目共睹,这项颠覆性的技术变革对于各个行业的发展势必带来重大的影响,ONES目前也在日常工作中以及产品规划中进行积极的探索。今天我跟大家分享一些我们团队的实践案例。
文档&写作
文档&写作是ONES团队落地AIGC实践比较完整的业务场景。先说翻译,ONES在国内软件项目管理领域做到Top1的同时,也在开拓海外市场。在这个过程中,有大量的文案翻译工作。此前,我们一般会请一些有这方面语言能力的同事,配合外包翻译公司进行合作,但相较于ChatGPT翻译出来的内容,我总觉得他们的翻译不是很地道。目前,我们公司内部基本上形成了一个决策,从费用以及时间成本的角度考虑,翻译工作会在短期被AIGC替代掉。
ONES是一个SaaS产品,不仅有标准产品,也有开发者平台,无论是用户还是服务商,都可以基于ONES做二次开发。我们称这为ONES开放平台,无论是中国,还是全球的客户,只要是大型团队,都或多或少地需要根据自身情况定制所使用的软件,而开放能力,可以作为定制功能力和标准产品的边界,这样才能真正高效地服务大型团队。
ONES具备丰富的开放能力,这同时也需要大量的的开发者文档作为使用说明书。我们尝试使用GPT提供问答方式让用户更快速地从大量文档中获取想要的信息,而和很多公司面临的情况一样,这个场景下,对文档质量和完整度有一定的要求,如果我们希望这个对话过程能进一步地,通过对ONES 开放能力的提问,给出对应代码,则也要求我们将大量之前的相关代码喂给GPT,这个做法对代码的数量和质量(命名、注释等)都有一定要求,相关的工作我们还在跟进。
代码编写
第二部分聊聊编码。Github Copilot的企业版发布时,我们全公司就基本已经用上了。我们的感受是,Copilot是一个代码补全的加强版。它可能会让大家心情变好,对于形式化的代码有一定的效率提升,但没有带来更多的本质差别,我们也有同事在研究AutoGPT,更多聚焦于它在任务拆解方面做得怎样。
如果是一些简单重复且容易被外包的内容,GPT效果还是比较好的,包括之前的Copilot插件,解决起来都会稍微好一些。但如果要解决一些复杂的场景,如「分布式环境下的一致性问题」,由于现在的语料和场景不够,人工依然会更快一些。
关于编写单元测试用例,是我们正在公司内落地的另一个场景。现代的编程平台,都有自己的自动化测试框架,GPT可快速生成单元测试用例,即单元的输入及期待的输出。当我把这个函数的代码以及注释给到GPT时,它可以帮我们生成整个相关的测试用例,并覆盖所有的输出边界。GPT出现以前,在很多大公司里,都会根据函数的输入参数类型以及描述生成测试用例的工具,这些工具根据入参自动穷举出来所有边界对应的测试用例,现在用GPT就可以直接完成了。
目前基本上有70%-80%是可以用这种方式去测试,它可以节省更多时间。如果覆盖率够,其实对我们的质量也是有帮助的。
UI&VI设计
我经常会跟设计同事讨论,看看有没有机会让他们的工作也变得更高效。ONES主要还是用Stable Diffusion,Prompt很大程度决定了生成可用图的效率,而设计师们对专业英文可能不熟悉,这时翻译也成了个问题,但我们可以让GPT来解决这个问题。下面,我就给大家分享一下我们是如何结合ChatGPT、Stable Diffusion的。
我们同事参照了网上的一个Prompt模板,把需求整理出来,再通过GPT去生成对应的英语Prompt,将这个英文Prompt作为Stable Diffusion的输入用于生成图。举个例子,我们公司Logo的意思是“带齿轮结构的鹦鹉螺”,我们给了ChatGPT一版LOGO的描述,但出来的结果差距还是比较远。我们又问他能不能用极简风格?最后它给了一段新的Prompt,我们新的Prompt再贴进去,看起来就更理想一些了。
这里更多的启发是,很多时候我们认为很多事情很难做下去,是因为我们不知道怎样和它交互,而借助ChatGPT,我们可以使用自然语言最终与这些工具交互起来。
还有一个启发,以前都是单向学习,有了GPT以后,就变成对话式了。例如在我们不知道当前有什么设计风格时,可以追问的方式寻找答案,相当于多出来一个博学的老师,这个方法特别适用于帮我们去了解一个领域中的基础知识。
前段时间,我们用Stable Diffusion生成了一系列的图标,以前可能需要一两个月,现在基本半天就完成了。过程是怎么样的呢?利用微调插件Lora,基于大模型来做微调,一个是调风格,一个是调角色,包括组合的细节等。微调本质是做一次小“炼丹”,在自己的电脑或使用云端服务都可以进行。
我们内部有一些设计资料,之前全都是人工画的,我们把里面很多元素抠出来当作最基础的第一批训练素材,先在C站上面找到符合我们需求的大模型,并用这10张图生成了Lora模型,这样的效果有个问题,就是风格太固定(过度拟合)。于是,我们先基于第一代图片,以图生图的方式,生成第二代图片,再从第二代图片里挑出满意的,加起来再重新训练Lora模型,最终再让它生成如铅笔、小狗,就能画出这个样子来。最后再用一些工具简单抠一下图,最后就变成一个图标库了。整个过程仅仅只花了3个小时,如果同事自己画,至少需要两三周,这些就是我们这三个月里尝试的一些比较落地的东西。
最后,再给大家总结几点我对AIGC领域的观点:
1.上下⽂极⼤影响ChatGPT的输出质量,多轮对话是常态,建议使⽤5W2H结构构造Prompt。
2.未来必然产⽣以AIGC「对抗」AIGC的⼯作范式。
3.对于图⽚⽣成场景,两个优势的场景:快餐类图⽚需求;设计概念头脑⻛暴,越精细的场景后期调整成本越⾼。
4.对话式学习会得到普及。
5.确定目标、信息收集、拆分执行、做复盘,是人类决策的基本步骤,后三个AI都很擅长,但第一个大概率不会让AI去做,因为它没有权力也无法对其追究责任,所以我们不会给它像人权一样的东西。没有权力就没有责任,最终AI会变成一个人类做决策的助手。
今天的分享就到这里,如果有机会,我们过一个月时间再见的话,可能会有很多不一样的新东西。
大家好,我是竞智科技GamesMind的创始人兼CEO张大卫,之前在微软亚洲研究院任研究员,后来创立了竞智科技GamesMind。今天,我会站在游戏AIGC的角度,和大家分享一下行业的最新进展以及我们自己的实践案例。
游戏行业的内容生成痛点
游戏行业在大模型和AIGC这一层面面临怎样的痛点?全球游戏市场的规模在2000亿美元左右,但这几年基本没怎么增长。整个行业都在卷剧情、卷美术,虽然研发费用在逐年提高,但收入与市场并没有发生什么变化,而据了解游戏行业的美术占到了研发费用中约一半的比例。无论是一些研报还是大家普遍的认知,游戏都是AIGC影响最大的领域,例如文本对应的任务、剧情、智能NPC;图片对应的原画、立绘、资产等等,都将是AIGC绝佳的应用场景。
各行各业都在思考,在引入AIGC时会遇到怎样的瓶颈?以游戏厂商为例,首先是外部接入门槛高,现在基本上所有的游戏厂商都用过Midjourney或者Stable Diffusion,但他们给到的反馈是看上去很精美,但实际距离生产力环节还有很大的差距。其次,内部的研发效率低,游戏厂商普遍反馈自建AI研发团队效率低,他们还是更希望和一个专业的第三方公司合作。
竞智科技GamesMind成立于2020年,早在2020年我们就发布了当时世界上第一个MOBA类游戏生成式解说,并且很早就创建了专业级游戏内容生产平台GamesMind AI Creator。虽然说AIGC是最近才火起来的名词,但其背后的技术已经存在很长时间了。
AIGC在游戏场景下的应用实践
在现在的游戏场景下,如何展开AIGC的前沿工作?游戏厂商给我们讲过一个痛点,Midjourney生成的图很精美,但绝大部分人不会直接拿来用,因为大部分厂商都会追求自己的风格、效果或IP。他们觉得Midjourney这类工具生成的图根本没法用,哪怕想再多的提示词,也始终出不来他们想要的效果。
以前,当我们给客户做一个风格模型时,通常都需要厂商提供大量数据,然而绝大多数厂商都拿不出足够数据,而且也接受不了过长的训练等待时间。如今在图像生成的AIGC领域,我们采用大模型+小模型的思路,在底层做了一个游戏垂直领域的基座模型,小模型训练出自己额外的附加层,再在附加层上对风格进行控制和训练。
在这一块,各个行业都不同,为什么游戏行业要搞一个垂直领域的基座模型?如果大家试过一些通用生成平台,就会发现其对游戏领域里的一些概念、形式覆盖的不够,结合具体的行业特点,我们选择在游戏行业研发自己的基座模型。当我们给客户训练出一个自己的小模型之后,再结合基座模型使用,就可以保证生成他们想要且质量很高的效果,而且在成本上也是可以接受的。
生成人物剧本这块对应游戏里的剧情策划工作。通用大模型有一个基础问题是中文语料比较少,游戏领域就更窄了,而我们在NLP领域有多年的积累,包括我们很早就发布的生成式解说模型等,所以游戏领域我们是采用了自研的游戏垂直模型。大家可以结合自己行业的实际场景去评估,如果合适就用大模型,不合适再考虑自研或合作。对于MMO、StoryTelling、AVG等重剧情游戏,可以使用模型生成剧情和分支,结合个性化的技术还可以实现每个人的动态剧情。以及在元宇宙等大型游戏里,面对需要成千上万个NPC时,可以生成贴合游戏背景的NPC内容,丰富游戏设定与交互体验。
在美术环节游戏厂商在使用通用平台或者开源软件时候面临各种痛点,例如我们用Midjourney生成一个人物之后觉得还不错,但又想把眼睛改成绿色的,本能反应在原有的提示词上加一个“绿眼睛”,在重新生成之后它会给你一张新图。这张新图可能眼睛是绿的,但其他部分也全变了。实际场景下,用户不指望它一次就能生成个完美的图片,而是期望通过几次修改微调后满足要求。
大家可能在想,为什么不能直接把图片下载出来,再用Photoshop去改。但事实是,模型生成的图片是不带图层信息的,没有美术人员愿意去修改不带图层的图片。这种情况下,我们给客户提供了类似Adobe的蒙版操作,可以对生成的图片进行选中或者涂抹,然后对这部分进行局部生成。生成过程中,再结合周围的情况进行具体计算,反复修改几次基本能达到客户想要的情况。
此外,提示词这种交互方式还有很多局限性。拿游戏行业而言,美术人员会有一些专业的知识、技巧和思路,但它没法通过提示词的方式融入到生成过程中去。这就跟聊天机器人一样,如果背后不接入知识图谱和知识库,其实就是一个闲聊机器人。只有接入对应的知识图谱或知识库之后,才能变得具有生产力。基于同样的思路,在图像这块也一样,我们把美术人员的专业知识做成一个知识模块,有效的把美术人员的专业知识融入到生成过程中。
在结构控制这一块也是同样的思路,例如生成一个图,像我们美术外行觉得很好,但是美术人员就会看出灯光、景深、姿势、布局等等不对,自然也不会满意。其实这里面也可以引入额外的结构控制,在图片最终生成之前,通过附加层进行结构预设,再让主美进行把关,去满足他们预期的图片质量。
诸如此类的痛点在游戏行业还有很多,大家可以结合着自己的行业,去借鉴分享的思路。
各行各业其实都可以用大模型+小模型,或者是大模型+Finetune、Prompt这种思路来做。在游戏领域,具体的例如输入这一块,我们也做了一些对应的修改。对于游戏来说,从主美出草图到基础美术完成效果图,再到制作人反馈,单单只是一个初期美术选型的过程就需要1-3个月。我们的方案是,在主美画完草稿图或者线稿图之后,剩下的部分让AI进行生成,从而大幅度减少了游戏初期美术选型的时间。还有些客户始终觉得,通过提示词生成不出自己想要的样子,于是自己画一部分效果,剩下的部分使用GamesMind的AI进一步生成。同样的思路,我相信在各行各业当中都有广泛的应用空间。
我们的客户类型有2D、2.5D和3D等,对应不同的游戏类型我们基本能够在美术环节帮助他们减少70%到90%的时间。拿一个典型的2.5D的SLG游戏举例,以前美术人员需要15个工作日才能完成的资产,在与我们合作之后,基本上半天就能完成。基于这样的优势,客户广泛的把AIGC技术应用到了他们的皮肤、活动奖品等场景。再举一个例子,一款战争题材的游戏,各个国家或阵营坦克区别不大,如果分别画一遍,会非常的耗人力,我们的方案是可以画一个基础版,结合各个国家或阵营的一些特征,用AI迅速帮他们生成。
前面所讲的都是面向游戏制作过程的美术环节。其实除此之外,大家各自的行业也有营销、宣发、以及广告需求。以我们现在的技术,同样可以完成广告的图片、海报等需求,同时在视频方面我们自己的自研模型,能比同类模型快2个数量级,能够快速高效的帮客户满足图片、视频等的生成需求。
接下来分享一些具体的案例,比如说游戏在国外市场找一些人模是比较繁琐的,而且假设后续还需要一些新场景时,可能就找不到这个人了,同时,还会存在版权的一些要求等,这时候通过我们的模型设定,可以在不违反肖像、版权等情况下进行生成。拿游戏里的一些资产来说,偶尔会出现赶工或水平不行的情况,当我们在色彩、光泽、细节上遇到问题时,也可以借力AI进行辅助生成。以及页游等厂商以前也有大量的素材,但这些素材远远不如手游和端游,如果不愿意花钱重画,那么风格迁移、细节重画这些需求,就可以借助AI高效完成。
再说一个更深入的需求,比如想创建一个全新的角色,通常需要的时间远比创建一个建筑的时间要长的多。这个时候就可以借助AI,按照客户的想法、需求、灵感来源,生成几十甚至上百个选择,挑选出钟意的结果再进行细节优化,进而大幅缩短了角色创作时间。
以上就是我今天的分享,希望对大家有所帮助!