导语:深圳市移卡科技有限公司(09923.HK)是一家领先的以支付为基础的科技平台,成立于2011年,于2020年6月在港交所上市,专注为商户及消费者创造价值,愿景是建立一个商业数字化生态系统,以实现商户与消费者之间无缝、便捷及可靠的支付交易。
近日,移卡集团AI Lab(人工智能实验室)占懿浅显易懂阐释了AIGC的前世今生,以及移卡集团在AIGC领域的建树,以下为作者原文:
刚刚过去的2022年可谓是人工智能领域的重要一年,也算得上是AIGC的元年。
虽然AIGC的概念在很早之前就有,比如微软的聊天机器人小冰,用于图片创作的GAN,但是这个名字直到2022年才冲上热搜被人们熟知,其中重要的原因是生成式模型Diffusion和chatGPT分别在图像和自然语言生成领域的大放异彩。
那么什么是AIGC,为什么生成式的模型能具有这么大召唤和影响力,它对产业会产生哪些影响呢?
AIGC:成本更低、信息更丰富,让AI从幕后走向台前
AIGC是AI Generated Content的缩写,是继PCG(Professional GC)和UGC(User GC)后全新的内容生成方式。
在早期互联网时代,平台主要依靠聘请专业人员撰写内容,来吸引用户,这种模式就被称之为PGC。虽然PGC模式下内容质量可以得到保证,但是产出效率较低,而且成本较高。随着移动互联网爆发,特别是最近几年流媒体升温,普通用户作为内容生产的主体对信息发布与流通产生了极大的变革,UGC开始成为平台内容的主要来源,但是也存在质量参差、优质内容成本高等问题。
与PGC和UGC相比,AIGC的崛起,可以说又一次具有颠覆意义的变革。它让内容生成变得简单且富有创意,成本更低的同时,信息更丰富。基于diffusion生成的图像,可比肩专业的艺术家,而chatGPT对于知识的整合能力、上下文理解能力,以及跨领域的支持也让人有一种强人工智能即将来临的“错觉”。
AIGC确实意味着AI从传统的后台业务,一下子进入到前台中成为内容的生产者。此前,AI主要起到甄别与推荐的幕后角色,但在新技术下,AI不再简单的是我们助手,而是可能逐渐变成我们的伙伴甚至引路人。
AIGC如何让AI从“人工智障”走向“人工智能”?其实隐藏在AIGC强大“内容能力”背后的有三个助力:大模型,多模态以及开源。
首先是大模型。此前主流的AI技术主要采用特定场景下训练的小模型,这种技术路线往往包含了若干base model(类似于执行具体任务的程序),在特定领域的互动中可以满足需求。但如果想添加新功能,就必须训练新model,这导致如果提出一些非“常规”的问题,人工智能就会变成人工智障。但以open AI为代表的新技术路线,从一开始就采用了成百上千亿参数的大模型训练,作为GPT3 的升级版本,chatGPT的参数预估超过2000亿。这样训练的成本更高,但在理解需求时会更有可能接近人类的思维方式,因为人脑就是一个由无数神经元连接的超大规模的网络。
(chat GPT采用的就是典型的大模型训练方式,训练成本极高但持续迭代后的效果更好)
第二是多模态。OpenAI推出的CLIP以及基于此技术出现的diffusion model,在生成领域开辟了一条全新、便捷的线路——多模态的融合相比此前的技术得到的内容更加自然、精准。除了技术上的创新外,CLIP超过40亿的训练数据也印证了模型效果和海量数据背后的强相关关系。
再者就是开源。开源一直是AI技术文化的一部分。开源带来的影响力是巨大的,比如GAN及其变种在AI领域持续的活跃就是开源带来的直接作用。开源也让技术赋予了商业化的能力。比如 stable diffusion的开源,就让原本门槛很高的领域能为普通人接触,并且可以让缺乏相关能力的中小企业能基于此进行后续的二次开发。
AIGC引领产业巨变:从文本、代码、图片到视频
chatGPT对外测试所表现的惊艳效果以及商业化规划,提供给了人们很多想象的空间。对于预训练大模型而言,只有头部的科技企业能提供如此众多的数据和资源支撑,它们可以看作是AIGC的基石和平台,基于平台的垂类开发及业务应用所蕴含的巨大潜力会给各行各业带来深刻的变革。
预训练大模型可以提高模型的通用性,让企业和用户低门槛的使用顶尖的AI技术,随着未来的发展,与工业技术的融合可以极大提高工业化水平形成流水线生产,最终形成“基础层-中间层-应用层”的三级AIGC结构。这种可期的效果相当于目前成熟的“云服务-小微企业-用户”公有云系统。
AIGC带来最直接的冲击是消费领域,从文本生成、图像生成再到视频生成、游戏生成,这些都是我们已经看到或即将看到的新业态。
AIGC文本交互的形式原生的匹配了以客服聊天、新闻撰写等为核心的场景。在给定场景和prompt的前提下,基于大模型的垂直领域的优化可以很轻易地完成这结构化的文本生成,如金融新闻,体育简报,在线客服问答等。交互型文本在游戏开发上,如NPC角色个性化交互、灵宠的交流互动等可能会有所突破,直接提升游戏的体验。
当然在一些具有较长上下文联系,情感融合以及表达艺术需求的创作型文本撰写上,如小说、剧本等,则需要更大的定制化以及模型更高的生成能力的支持。
在图像领域,图像编辑已经有较多的技术支持和实践,如滤镜、颜色、纹理、风格、分辨率调整已经较为成熟,deepfake更是曾经名噪一时,如今以DALL.E-2,stable diffusion和Midjourney为代表的diffusion产品更让完整的图像生成风光无两。
diffusion在图像领域带来的突破,也让它在其他领域找到一席之地,如视频、语音生成,3D点云填补等。其中语音合成TTS已经初见成效。未来文字配音及基于文字自动填词、基于文字创作自动配音的实现将会更大程度的降低创作领域的门槛,实现AI也是艺术家。
但是我们也要看到生成图像的稳定度以及质量仍然有待改善,生成的图像虽然在抽象画风上表现良好但对于现实的复刻,特别是多对象生成时,仍然有明显的伪造痕迹。
除了图像外,真正能带来消费领域大变革的在视频领域。视频的表现力和视觉冲击力会远大于文字,尤其是短视频领域。
利用AI技术实现图像修复技术、主体识别技术、视频跟踪、美颜技术完善画质效果,根据视频内的风格、色泽、图画、音频等多模态信息,对视频关键内容进行自动识别、关键帧截取、剪辑及合成,以及后续视频内容自动生成都是AIGC在视频领域有机会的探索方向。
实际上,在上述这些领域,产业的探索正在高速进行。移卡集团AI Lab就在AIGC领域做了一些效果不错的尝试。
首先是在内容生成方面,移卡集团结合自有数据以及旗下千千惠平台资源,探索上线了一套自有的、专注于餐饮与娱乐行业的商户产品文案推广AI生成工具。商户根据店内商品的简要描述,即可一键生成具有可读性的宣传文案。这大幅降低了商户创作文案、宣传产品的难度,提升了产品的推广和运营效率。
在视频领域,移卡集团也为商户打造了一款AI视频云剪辑工具,帮助用户降低打造爆款视频的难度。通过对商家或者达人拍摄的视频进行自动识别、关键帧提取、剪辑和拼接,及特效包装,可按需一键剪辑多个视频,其效果接近人工剪辑的水准,大大降低商家对于视频制作宣传门槛的要求。未来随着数据量的增加,剪辑的效果也会越来越好。
除了传统的消费领域外,AIGC也会给实体和工业领域带来很多颠覆性的变革。
三维物体和空间的重构是打通二维世界和实体三维世界重要的纽带。传统的基于SLAM和三维点云重建技术主要的问题在于采集效率低,精度有限等问题。基于diffusion技术,三维点云填补已经开始尝试。虽然由于点云数据少,采样的精度低,物体材质难以判断等原因,效果依然难以达到预期,但是作为一种全新的低成本重建方式,前景仍是非常值得期待的。
如果3D建模技术能通过AIGC获得突破,高效的解决三维物体的自动重建功能,将会引起整个工业界的变革和效率的极大提升。
整体而言,对于大部分产业来说都将进入一个颠覆变革期。对于AIGC的发展,红杉资本也于去年9月份做出了预测:文字类AIGC将在2023年进入黄金期,图片类AIGC黄金期将在2025年左右,而3D和视频类AI在2030年将迎来变革高峰。
当然,任何技术都是一把双刃剑。技术应用外,关于AIGC的安全、伦理、版权也值得行业深思。技术同样没有法外之地,技术滥用,歧视,素材版权以及生成物的版权都是需要共同的规范才能保证行业的健康发展。
AIGC,是真正赋予AI自行创作能力的起点,虽然目前看起来它依然有着很多的瑕疵,但是确实给予了人们很大的期待。随着未来GPT4的推出,相信可以给人更大的冲击,说不定一直摆在人与AI之间的图灵测试将会就此被打破,到时科幻电影里的强人工智能离我们的现实或许并不那么遥远。