在中国大模型与AIGC创业大军中,王慧文创办的光年之外吸引了最多的目光。正当大家期待其接下来的亮眼表现时,却传来了不好的消息。6月25日,光年之外联合创始人王慧文近期遭遇个人健康问题,经诊断后已离岗就医。
在几天之后的6月29日,美团光速接盘光年之外。6月29日消息,美团于香港联交所发布公告,称已完成光年之外境内外主体100%股权的收购,收购价约为20.65亿人民币。
这个事情,往好处看是上演了一场难得的兄弟情,当王慧文落难时,其好兄弟王兴果断出手相救。但另一方面,对于中国AIGC创业而言,却不是一个好消息。美团多了一项业务,但市场却失去了一个很有潜力的明日之星。可以说,光年之外的挫折,给中国大模型和AIGC创业浪潮浇了一盆冷水。
但是,大模型、AIGC时代大潮,已经滚滚而来。倒下一个王慧文,还会有“李慧文”、“张慧文”、“赵慧文”。中国大模型和AIGC的事业,还得推进下去。问题的关键是,我们得抓住大模型、AIGC的本质,真正了解其最新的技术进展和挑战,持续探索商业落地场景,并对可能存在的问题有清醒的认识。
为此,数据猿采访了诸多业界专家,包括:有米科技合伙人兼有米云CTO蔡锐涛、北极九章创始人兼CEO刘沂鑫、360智脑总裁张向征、焱融科技CTO 张文涛、华院计算数智人产品总监冯绚。就AIGC的最新技术进展、应用场景与面临的挑战,进行深入的探讨。
AIGC在过去几年中的发展突飞猛进,这主要得益于深度学习、迁移学习、强化学习等核心技术的持续发展和突破。尤其是深度学习,通过大数据和强大计算能力的驱动,大型神经网络模型如GPT-4等在处理文本、图片等多模态内容生成任务上表现出惊人的能力。
1、大语言模型横空出世,文字内容生成今非昔比。
大型语言模型是AIGC的核心,它的出现显著提升了内容生成的质量和创造力。这些模型能够理解复杂的上下文,生成连贯、富有创造力的内容。生成文字内容的大型语言模型(例如GPT-3或GPT-4)的核心技术主要基于深度学习中的transformer结构,这些模型通过在大规模文本数据上进行预训练,学习到了语言的各种复杂模式和规律,从而可以生成高质量的文本内容。
360智脑总裁张向征告诉数据猿,“基于语言大模型的AIGC能力是目前最先进的大模型,360当前已经具备了双千亿大模型的能力。随着大模型的持续演进,升级迭代的不断加速,我们也依然要看到在大模型上存在诸多挑战:模型训练需要消耗大量的算力,往需要上千张顶级GPU的显卡服务器集群训练3个月才能达到预训练效果;模型训练需要万亿级tokens的优质语料;大语言模型普遍存在幻觉问题。”
为了有效解决上述问题,360做了大量工作,比如360在过去十几年积累了大量高质量的中文语料,加上大量的专业文献、行业数据等,构建了大规模、多样性、高质量的训练语料库。为了解决大模型的幻觉问题,360通过将大模型跟搜索、知识库结合,实现实时数据更新和知识的双向校对,在抑制大模型幻觉方面有很好的应用效果。
此外,张向征还详细介绍了360智脑的特点和能力,“360智脑是360自研认知型通用大模型,依托360多年来积累的大算力、大数据、工程化等关键优势,集成360GPT大模型、360GLM大模型、360多模态大模型技术能力,具备生成创作、多轮对话、代码能力、逻辑推理、知识问答、阅读理解、文本分类、翻译、改写、多模态十大核心能力。目前,360智脑已升级至4.0版本,多项能力迭代,刷新国产大模型‘中国速度’。与此同时,360AI数字人重磅发布,区别于传统数字人只能按既定脚本输出内容,360AI数字人有‘灵魂’、有人设、有记忆,能够复刻人的思维方式和人生经历。”
在此基础上,360衍生出数字名人和数字员工两项产品。基于数字名人,用户仅需一张图片,一段提示词就可以让360智脑角色代入创建属于自己的数字名人。用户可以穿越时空,与先贤实现开放式对话,也可以跟名著里的人物实现面对面的交流。同时,通过知识库和多模态增强的数字名人,还可以生成自拍照、生成视频、语音交流甚至是直播带货;基于数字员工,可为每个职场人打造多种数字助理。基于数字员工,360智脑可以成为营销总监,输出高质量的市场策划;也可以成为文案助手,撰写爆款文案;还可以成为商业分析师,阅读行业分析材料。总之,借助大模型的能力,数字人、数字员工的“智力”得到了显著提升,能做的事情更多,实现的价值也更大。
2、图片、视频等内容生成,在核心技术上跟文字生成有根本不同。
需要指出的是,大语言模型和AIGC虽然都是近期的热点,并且存在诸多关联。但是,同样是人工智能生成内容,生成不同内容其底层的核心技术是不一样的,目前的大语言模型主要应用于文字内容生成领域,在图片、视频等其他内容生成上其实作用还不明显。
具体来看:图片生成的核心技术通常基于生成对抗网络(GANs)。这类网络包含两部分,一个生成器和一个鉴别器,它们互相竞争以提升自身的性能。生成器的目标是生成足够逼真的图片以骗过鉴别器,而鉴别器则努力去区分真实图片和生成的图片。随着训练的进行,生成器能够生成越来越逼真的图片;视频生成可以看作是多帧图片的生成,它需要考虑到时间连续性。视频生成的技术也通常基于GANs,但是比图片生成更复杂,因为需要保持时间上的连续性,并生成更多的数据;3D内容生成的技术包括了许多领域,如计算机图形学、计算机视觉和机器学习。其中,一种重要的技术是3D重建,即从2D图片或者视频中恢复出3D的结构。另一种是3D GANs,它们可以从随机噪声中生成3D模型;语音生成的核心技术通常基于深度学习的序列生成模型,如循环神经网络(RNNs)和Transformer。这些模型被训练去模仿人的语音,包括音调、语速和音色等各个方面。
目前,各个内容生成领域的核心技术都在快速发展,由于大语言模型的发展,文字内容生成的突破最显著。其他领域的内容生成,都还有很多问题需要解决。例如,生成复杂场景图片并支持互动修改是一项具有挑战性的任务。对于这样的任务,不仅需要模型具有理解和生成图片的能力,还需要能够理解用户的修改意图,然后按照用户的意图对生成的图片进行修改。这需要模型具有强大的理解和生成能力,也需要精细的用户界面设计和人机交互机制。
在此,我们需要搞清楚大语言模型与AIGC的关系,其中一个关键点是搞清楚是否可以用大语言模型来生成图片、视频、语音、3D内容。在不同类型的生成技术中,一个重要的差异是他们处理的数据类型和结构不同。文字生成主要处理的是离散的符号数据,而图片、视频和3D内容生成处理的是连续的数值数据。此外,视频和3D内容生成还需要处理额外的时间或空间维度。因此,虽然这些生成技术在很大程度上都依赖于深度学习,但是他们的具体模型结构和训练方法会有很大的差异。GPT等大型语言模型,它们基于Transformer结构,主要被训练来理解和生成人类语言。在原理上,ChatGPT这类大语言模型对生成连续的数值数据(如图片、音频或视频数据)并不是最佳选择。
3、多模态内容生成成为AIGC的“圣杯”。
多模态生成是AIGC的另一个重要研究方向,通过整合文本、图像和音频生成的技术,AI可以生成丰富多样的内容,从而更好地服务于各种应用场景。例如,AI可以根据一个故事的文字描述生成对应的图像或动画,也可以根据音乐生成与之匹配的视觉效果。
在目前的研究中,我们已经看到了一些令人鼓舞的成果。例如,Midjourney可以生成具有惊人细节和创造性的图片,而最新的语音合成系统可以生成几乎无法与真人语音区分的声音。中国的第四范式发布了一款多模态大模型产品——式说,致力于用AI重构企业软件。B端的企业软件虽然功能强大,但其系统层级复杂,用户使用门槛高。此外,菜单分级的设计建制,一套迭代流程走完,至少是月级别的开发周期。生成式AI的出现,让软件得以以一种万能对话框的界面呈现。用户使用人类自然语言即可直接调用软件功能,无需再层层点击。此外,软件的功能升级,也仅需新增或改写数据/接口规则,开发效率从“月级”提速到“天级”。在“式说”的帮助下,企业软件有机会创造出一个体验优秀、界面极简、自我迭代的新型工作流。
然而,需要看到的是,多模态生成的复杂性远高于单模态生成,需要模型能够理解和处理多种类型的数据,以及它们之间的关系,这个领域还面临着许多关键的挑战。针对这个问题,数据猿采访了多位业界专家。
焱融科技CTO 张文涛认为,多模态大模型是以LLM为基础,目前面临的最大问题仍然是算力和高质量的数据,多模态大模型需要足够的算力交叉学习图片、音频和视频数据。从落地场景来看,在游戏行业落地的可能性最大,游戏的人物角色和背景制作周期长导致试错成本高,游戏公司有足够的痛点和动力去解决AIGC进入生产的各类问题,并且对模型输出有足够的容错性,可以反复调试提示词获取合适的结果。
360智脑总裁张向征认为,实现多模态的AIGC内容生成,不同路线有不同的技术挑战。目前学术界和工业界多模态AIGC方向的重点是让模型理解文字以外的输入,其中视觉输入最为重要。将视觉能力融入语言模型 LLM 的 研究路线有两种:一是google robotics的原生多模态路线,二是Deepmind的flamingo及360研发的SEEChat单模态专家模型缝合路线。前者的技术挑战是如何应对模态信息增加后的维度爆炸问题,以及如何平衡不同模态信息之间的相互影响;后者的技术挑战是如何高效实现其它模态信息与文本模态对齐,同时不影响文本模态的原有能力。
华院计算数智人产品总监冯绚博士认为,要更好实现多模态AIGC内容生成,需要着力解决以下几个问题:如何将图像、文本和语音等不同模态的数据进行有效融合;如何对多模态数据上进行有效的表示学习;如何在多模态数据上进行有效的生成模型训练。冯绚博士指出,目前,跨模态内容生成技术已经取得了很大的进展,如文字生成图片、文字生成视频、文本生成代码等。未来,内容生成模型模态之间的交叉融合将会更加深入,这也是华院已经在着力研发、并看到应用场景实际需求的领域,相信我们最终会迈向更高效、准确和可解释性的多模态认知智能。
在新闻、营销以及艺术领域,AIGC都有着深远的影响。如果要AIGC出现一个“杀手级应用”,那很可能就出现在这几个领域。
1、艺术——AIGC有没有创造性,是一个关键问题。
首先,我们探索一下AIGC在艺术领域的潜力。例如,基于深度学习的艺术品生成,从抽象的艺术图像到逼真的人脸生成,都能展示出人工智能创作的潜力。
不久前,发生了一件有趣的事情,一位游戏设计师 Jason Allen用 Midjourney 生成的作品——《Théâtre D’opéra Spatial》(太空歌剧院),在美国科罗拉多州博览会的艺术比赛中力压一众人类画家,获得了第一名。据Jason Allen 介绍,他先将将大量关键词输入到Midjourney 程序中,然后经过了大概 900 次、约 80 个小时的修饰后,才完成了这个作品。
《Théâtre D’opéra Spatial》(太空歌剧院)作品图
另一方面,仍然存在一个关键性的问题还没得到很好解决,那就是AIGC在这个领域的"创造性",能否与人类的直觉、情感以及生活经验相匹配?目前的AIGC更多的是依赖对大量数据的学习与模仿,其创造的艺术作品虽然在形式上可以达到甚至超越人类,但在内容的深度和情感的表达上,仍难以与人类艺术家相比。
2、营销——AIGC引爆一场营销效率革命。
传统的营销内容生产方式在应对当今市场环境的挑战时显得力不从心,原因在于它无法满足大规模、高效率、低成本以及个性化的需求,而AIGC在这些方面则展现出巨大的潜力。
首先,AIGC具备快速生成大量营销内容的能力,这意味着它可以适应不断扩大的市场规模和快速变化的市场环境。比如在电商平台上,可能有数以万计的商品需要进行介绍和宣传,传统的人工方式难以在短时间内产生如此大量的内容。然而,AIGC能够自动化地、大规模地生成文案、产品描述以及营销邮件等,大大提升了营销内容的产出效率。
其次,AIGC能够降低营销内容生产的成本。对于大型公司,人力是一项重要且昂贵的投入,而AIGC的应用可以显著减少这方面的开销。对于资源有限的中小企业和创业公司,AIGC则提供了一种高效的解决方案,使他们能在资源有限的情况下仍然实现大规模的内容生成,增强自身的竞争力。
有米科技合伙人兼有米云CTO蔡锐涛提到,在数字营销领域,多模态的AIGC内容生成尤其值得关注。他认为,“在营销内容创作上,AIGC不仅颠覆了内容创作的成本,也在冲击内容创作的流程,相信在不久的将来,数字化的创意Partner将成为创作者的必备工具。”
此外,蔡锐涛认为,多模态的AIGC在营销数据处理方面,也将发挥重要作用。具体来看,营销数据处理上,在商品数据以外,诸如创意内容这一类非结构化的数据,过往缺乏相应的分析技术,更依赖于人的主观经验和直觉判断。有米云最近上线的“AI趋势分析”功能,将AI技术融入营销数据库,让文本、视频等不同形式的内容可被解构和拆解,内容背后的用户喜好得以量化,数据呈现的信息让决策者离真相更进一步。蔡锐涛谈到,“营销领域不缺数据,但大多是非结构化的数据,比如文字、图表、视频,AI技术可帮助解析数据,消弭数据孤岛,让趋势总结和判断具备真正的数据基础。”
3、新闻媒体——AIGC是一柄双刃剑。
AIGC在新闻媒体领域的应用,无疑是一把双刃剑,一方面能大大提高新闻生产的效率,降低成本,另一方面也可能引发内容质量和真实性的问题,需要我们认真权衡和控制。
从效率和成本的角度来看,AIGC具有显著的优势。在传统的新闻生产过程中,记者需要花费大量的时间和精力来进行采访、写作和编辑。这种方式既耗时又耗费人力,而且在面对大规模和快速变化的新闻事件时,往往难以应对。然而,利用AIGC,我们可以快速地、大规模地生成新闻报导,大大提升了新闻生产的效率。同时,由于大部分的内容生成过程是自动化的,所以人力成本也得到了显著的降低。
然而,尽管AIGC在新闻生产的效率和成本上有着显著的优势,但在内容质量和真实性上的问题却不容忽视。尽管AIGC可以通过学习大量的文本数据,来模拟人类的写作风格和方法,但它们并不具备人类的理解和判断能力,因此可能会产生质量参差不齐、甚至错误或虚假的新闻内容。这需要我们在技术层面上不断提升AIGC的生成质量和控制能力,同时也需要在政策和规范层面上建立相应的监控和管理机制,以确保新闻内容的质量和真实性。
AIGC无疑是一个黄金创业赛道,无论是新闻、营销,还是艺术领域,都存在大量的创业机会。小团队也可以通过开发创新的AIGC应用,利用其高效率、低成本的优势,打造出爆款产品。例如,打造出ChatGPT的OpenAI团队只有几百人,在图片生成领域的头部玩家Midjourney团队更是只有区区十几个人。然而,也需要注意的是,这个领域的竞争非常激烈,大公司如Google、Facebook等已经在这个领域投入了大量的资源。因此,小团队需要找到自己的独特优势,才能在这个领域立足。
关于AIGC创新创业,北极九章创始人兼CEO刘沂鑫认为,“AI问答、作画、做视频已经非常卷了,只盯着这些容易把AIGC想‘窄’了。AIGC改变的是人与工具的交互方式,有更多的场景可以被改造。创业者应该打开思路,以终为始地思考这种新的交互方式能给用户带来什么价值。例如北极九章所在的数据分析赛道,AIGC让普通人理解数据、应用数据的门槛变得极低,用自然语言就可以快速地洞察数据。作为创业者,也要知道AIGC在应用层面的执行难度。很多人知道AIGC很厉害,但不知道它的能力边界,容易高估或低估它的能力,创业者只有自己去使用AIGC产品、积极尝试探索才有机会更好地驾驭它。”
面临着数字化时代的快速发展,我们见证了AI生成内容在多个领域中的广泛应用。然而,这种全新的内容生成方式也带来了许多挑战。其中最显著的挑战可能就是虚假信息的泛滥、AI诈骗的风险,版权问题以及算力瓶颈。
1、虚假信息已经成为全球公众关注的主要问题之一,AIGC将让这个问题更加严峻。
虽然虚假消息这个问题在AIGC之前就已经存在,但AIGC有可能进一步加剧这个问题。由于AIGC能够快速、大量地生成内容,那些有意传播虚假信息的人可能会利用这种技术来扩大他们的影响力。5月24日,有人用百度的文心一言生成一篇标题中包含“科大讯飞被曝涉嫌大量采集用户隐私数据”的帖子,并发布在某股票交流平台。受该消息影响,科大讯飞股价出现盘中闪崩,半个小时跌了9%。
百度文心一言负责人张全文在朋友圈
随着AIGC的不断发展和完善,其生成的内容质量越来越高,甚至可能以假乱真,这使得公众更难以识别和抵制虚假信息。为了解决这个问题,我们需要发展更先进的技术来识别AIGC生成的内容,同时也需要加强公众的信息素养教育,提高他们鉴别虚假信息的能力。
2、AIGC让电信诈骗更加猖獗,更加隐蔽,更难辨真伪。
AI诈骗通常利用AIGC技术生成伪造的信息、文档或者个人身份,以此来误导受害者。例如,近日,福州市某科技公司法人代表郭先生,在10分钟内被别人借助AI技术诈骗了430万元。借助AI换脸动态视频和语音合成技术,可以在微信通话中接入任何视频,很难看出破绽。比如,下图就是通过AI软件将一个视频接入微信视频通话中。
为了防止AI诈骗,我们需要从技术、法律和教育等多个角度来着手,发展新的AI防诈技术,制定相关法律法规,并且教育公众识别和抵制AI诈骗。
3、AIGC让版权问题复杂化,这需要变革整个版权体系来应对。
在传统的内容生成中,版权的归属通常非常清晰,即内容的创作者拥有版权。然而,在AIGC中,这个问题变得非常复杂。一方面,AIGC生成的内容是由算法生成的,这使得人们很难确定版权的归属。另一方面,AIGC有可能生成的内容与已有的版权内容相似,这可能导致版权纠纷。为了解决这个问题,我们可能需要重新定义版权的概念,并制定新的版权法来适应AIGC的发展。
4、算力瓶颈,是AIGC规模化商用的最大拦路虎。
有米云CTO蔡锐涛认为,AIGC技术的核心是算法计算、数据量和算力。目前从应用的角度来看,比较大的挑战是算力,算力的规模和成本,决定了AIGC工具规模化应用的上限。由于算力和模型的限制,导致输入的提示词有篇幅限制,只能提供有限的信息输入,并且访问得到的反馈比较慢。这个场景相当于当年计算机的早期,由于价格昂贵和算力有限,只能在一个房间里面提供,但是真正迎来爆发,需要把这种能力以极低的成本落地到每个人的个人设备和日常场景里面才行。
早期的个人电脑蓬勃发展始于CPU的诞生和操作系统的成熟化,当下的AIGC工具,如规模化应用到更多场景里,还需要在硬件和软件上去优化,降低使用成本,以加速终端的应用,让AI助手成为可能。云端上的技术让一部分人享用到AI的便捷,而在PC乃至于是移动设备的终端,AI技术才能惠及更多人,带来更多可能性。
总的来说,虽然AIGC带来了一些挑战,但只要我们采取正确的策略和方法,就完全可以应对这些挑战,发挥AIGC的巨大潜力,实现更高效和创新的内容生成。同时,我们也需要认识到,技术本身并没有好坏之分,而是取决于人类如何使用这些技术。因此,我们需要从技术、法律、教育等多个角度来共同努力,以实现AIGC的健康和可持续发展。
可以预见,中国的大模型、AIGC创业将风起云涌,核心技术持续突破,应用场景的边界得到不断拓展。虽然王慧文的光年之外没能带给我们惊喜,但倒下一个光年之外,还会有千千万万个光年之外。中国的人工智能产业土壤已经足够肥沃,能为大模型、AIGC的创新创业提供资金、技术、人才、市场。这场21世纪的长征才刚刚开始,舞台已经搭好,好戏才刚刚开始。演员和观众,请就位。
文:一蓑烟雨 / 数据猿