近日,Meta在AI领域动作不断,先是在论文中发布新模型SegmentAnythingModel(SAM),用于识别、分割图像和视频中的物体。据Meta介绍,SAM的出现将使万物皆可识别和“一键抠图”,有望掀起通用视觉模型热潮。而在释放SAM后不久,Meta AI的基础人工智能研究(FAIR)团队又发布了首个AI动画绘图(Animated Drawings)开源项目,用AI技术轻松让各种人物涂鸦变成动画。
回顾国内,继百度发布语言大模型文心一言之后,阿里也于上周发布通义千问大模型,目前业界反馈良好。
在大厂们纷纷入局AI模型的同时,应用层面玩家也层出不穷。前不久,创意软件A股上市公司万兴科技(300624.SZ)重磅发布全新AIGC“真老外”短视频出海营销神器“万兴播爆”,海外公司则多从营销文案、图像生成下手,试图探索出最佳商业化道路。目前成效如何?本文将一探究竟。
技术军备赛:大厂间的“饥饿游戏”
AIGC看似一夜爆发,实则是多年技术沉淀的结果。
近五年来,随着生成式对抗网络(GAN)、扩散模型(Diffusion Model)等深度学习生成算法相继涌现,AI高品质输出内容逐渐成为可能。而随着2017年谷歌发布Transformer机器学习方法,人工智能领域进入了大炼模型参数的预训练模型时代。
由于预训练大模型对数据规模、算力等都有极高的要求,也因此,预训练模型的军备赛成为了大厂之间的竞争,而缺乏硬件设备、软件资源的中小厂则逐渐被甩出竞争队伍,AI底层技术方面马太效应将越来越明显。
目前,海外以OpenAI、谷歌为代表,国内以百度、阿里为代表的大厂们纷纷开始相关布局。海外方面,凭借ChatGPT掀起AIGC浪潮的OpenAI,是语言大模型方面的龙头企业之一。从ChatGPT到最近发布的GPT-4,OpenAI的大模型在表现方面堪称业界最强。
除此之外,今年3月初,微软发布了多模态AI大模型Kosmos-1;3月7日,谷歌和柏林工业大学的团队推出了PaLM-E视觉语言模型,其不仅可以理解图像,还能理解、生成语言,以及将两者结合,处理复杂的机器人指令。
在海外厂商备战得如火如荼的同时,国内也在从政企两侧双管齐下,加速数据产业等大模型研发基础产业的发展,促进国内AI模型研发加速。
2月13日,北京市经济和信息化局发布的《2022年北京人工智能产业发展白皮书》提出,2023年要全面夯实人工智能产业发展底座,支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生型。3月7日,国家数据局正式宣布组建。
自2月起,百度、阿里、腾讯、京东、字节跳动等大企业纷纷发声,表示自己在大模型领域已经开展了深入研究,且获得了很多成果。其中,百度已于3月16日率先推出大语言模型文心一言。从目前反馈来看,文心一言与ChatGPT在中文问答方面能力相差不大,但距GPT-4仍有差距。
此外在音频、视频等领域也有不少公司有技术布局,包括Meta和谷歌在内的厂商开始布局文生视频、GitHub则将目光投向AI生成代码这一细分赛道,而万兴科技则已在旗下创意素材平台Wondershare Filmstock中上线数十首AI生成的音乐作品。
落地应用:海内外厂家全面开花
如果说AI大模型是只属于大厂商的游戏,那么AIGC技术在应用层面的落地则为各类企业提供了更大的施展空间。根据Precedence Research预测,AIGC将在2022年后迎来应用的爆发。预计市场空间将由2022年的108亿美元上涨至2032年的1181亿美元,10年的复合增速高达27%。
从文本生成、图片生成,再到音视频、代码,甚至3D生成,AIGC技术在不同的应用方向全面开花。
AI文本生成方面,OpenAI虽为普通用户提供付费会员服务,但从GPT-4目前的开放情况来看,OpenAI在商业化落地上依旧主要靠B端合作。其中,通过付费商用API为其他企业及开发者提供服务显然是重点拓展的方向之一。
当然,AI文本生成在C端的应用前景亦不容小觑。其中,AI营销写作助手Jasper可能算是AI文本生成技术在C端应用较为成功的案例。Jasper可以帮助其用户撰写广告文案、标语、网页文案、电子邮件、博客以及社交媒体文章等不同场景的内容。目前其用户量已达到10万,以营销团队及自由职业者为目标用户。
在文生图领域,除海外率先推出AI绘画功能、推动AIGC行业第一波浪潮到来的几个“老牌”厂家,如Stability AI、OpenAI之外,国内也已有比较成熟的产品出现。创意软件A股上市公司万兴科技(300624.SZ)旗下首款AI绘画软件“万兴爱画”在业界率先推出“AI简笔画”新功能,成为全球首款交互型“图生图”AI绘画软件。
在AI生成视频领域,目前布局此分支的公司较少,万兴科技新推出的万兴播爆可能是其中比较值得分析的一款产品。通过AI、数字人技术,助力用户快速、便捷完成文本内容到高质量营销视频的自动化创作流程。使用该款应用,用户无需花费高价聘请外籍演员出镜,也无需购买专业设备进行任何拍摄和录制,只需调用万兴播爆中强大的上百套专业级场景化模板,以及超逼真多国籍AI数字人功能,几分钟、几元成本即可文生AIGC“真人”出海营销短视频。
在音频领域,Siri联合创始人Tom Gruber目前已经打造了能够实时动态编曲的自适应音乐平台LifeScore。用户只需向LifeScore输入一系列的音乐“原材料”,AI就会改编并实时混音,带来音乐表演。
尽管AIGC技术在应用落地的探索上仍处于初期,但其以重塑内容生产方式的形式推动产业数字化升级,推动人类生产关系的变革的作用毋庸置疑。在AIGC赛道,更多的进步在前方,更多新的增量空间必将开拓。