人工智能的爆炸正在扭曲我们的时间感。
你能相信StableDiffusion只有4个月大,而ChatGPT的出现还不到一个月吗?
打个形象的比喻,只要眨一下眼,你就会错过一个全新的行业。
而且,这些模型正在迅速走出实验室,在现实中被应用。
比如,LLM技术就启发了两个新兴的领域——决策代理(游戏、机器人等等)和AI4Science。
一、文字-图像生成
DALLE-2是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。
它启动了AI的艺术革命,催生了许多新的应用程序、初创公司和思维方式。
但DALLE-2被保护在OpenAI的围墙后面,并没有开源。
事实证明,StableDiffusion的开放性,让它给游戏带来了巨变。
现在,许多初创公司和研究实验室都在StableDiffusion的基础上创建新的应用程序,StableDiffusion本身也被开源社区不断改进。
最近,StableDiffusion已经达到了v2.1版本,可以在单个GPU上运行了。
Imagen
Parti
二、文字-文字生成
大家都知道,我说的是ChatGPT!
ChatGPT也大大启发了我们人类的创造力。
ChatGPT和GPT-3.5都使用了一种叫做RLHF(「从人类反馈中强化学习」)的新技术。
这也就意味着,提示工程或许很快就会消失了。
ChatGPT的流行,已经催生了一波新的创业公司和竞争者,比如JasperChat、YouChat、Replit的Ghostwriterchat,以及perplexity_ai。
这些竞争者提供了如此直观的搜索方式,连谷歌的高管们都开始出汗了!
三、文本-机器人模型
如何给GPT提供胳膊和腿,让它们能打扫你混乱的厨房?
与NLP不同,机器人模型需要与物理世界互动。
在今年,大的预训练Transformer终于开始解决机器人领域最难的问题了!
VIMA
它可以接收任何混合的文本、图像和视频作为prompt,并输出机器人手臂的控制。
我们的模型被称为VIMA(「VisuoMotorAttention」),已经完全开源了。
现在,单个智能体已经能够解决视觉目标、视频的一次性模仿、新概念基础、视觉约束等,具有了模型容量和数据的强大扩展性。
RT-1
这些数据是由13个机器人在17个月内收集的,是字面意义上的钢铁部队!
四、文本-视频
本质上说,视频就是随着时间的推移捆绑在一起的一系列图像,给我们创造了运动的错觉。
目前,文本-视频领域有3个重大的工作,但没有一个是开源的。
Make-A-Video
首先是MetaAI的Make-A-Video:不需要成对的文本-视频数据,就可以得到文本-视频的生成。
ImagenVideo
GoogleAI的ImagenVideo:它能使用扩散模型生成高清视频,基于Imagen静态图像生成器。
Phenaki
五、文本-3D建模
从设计创新产品到在电影和游戏中创造奇妙的视觉效果,3D建模正成为文本-X生成模型的下一片蓝海。
DreamFusion
首先登场的,是GoogleAI研究团队与UCBerkeley联合开发的DreamFusion。
该模型使用二维文本到图像的扩散模型来执行文本到三维的合成。
基于NeRF算法,DreamFusion可以通过给定文本生成3D模型。
该模型可以从任何角度查看,在任意照明下可以重新点亮,还可以合成到任何三维环境当中。
Magic3D
第二项成果,是英伟达AI团队的两个项目,名为GET3D和Magic3D。
GET3D仅使用二维图像进行训练,可生成具有高保真纹理和复杂几何细节的三维图形。
Magic3D与DreamFusion类似,使用文本到图像模型生成2D图像,然后优化为体积NeRF(神经辐射场)数据,将低分辨率生成的粗略模型优化为高分辨率的精细模型。
根据英伟达AI团队,由此产生的Magic3D方法,可以比DreamFusion更快地生成3D目标。
Point-E
继年初推出的DALL-E2用天才画笔惊艳所有人之后,周二OpenAI发布了最新的图像生成模型「POINT-E」,它可通过文本直接生成3D模型。
相比竞争对手们(如谷歌的DreamFusion)需要几个GPU工作数个小时,POINT-E只需单个GPU便可在几分钟内生成3D图像。
六、会玩《我的世界》的AI
《我的世界》是一款测试AI通用智能的绝佳游戏。首先,它是一款无限开放的沙盒游戏,极度体现玩家的创造力。
其次,该游戏有1.4亿的玩家群体,是英国总人口的两倍。用户基础如此庞大,供AI学习的游戏数据可谓是源源不绝。
那么,AI能否和人类一样尽情挥洒想象力呢?
Fan的最终目标是建立一个「具身的ChatGPT」。目前,MineDojo平台已经完全开源。
与此同时,JeffClune的团队宣布了一个名为视频预训练(VPT)的模型,该模型可以直接输出键盘和鼠标的动作。
VPT拥有更广阔的视野,但不受语言条件的限制。在这点上,MineDojo和VPT恰好相辅相成。
七、AI外交官
MetaAI推出的CICERO是第一个在《外交》游戏中实现人类水平表现的人工智能智能体。
然而,CICERO的出现表明,人工智能现在已经有说服他人和虚张声势的能力。
目前,DeepMind也宣布开发自己的外交官AI智能体。那么,如果CICERO使用这个AI模型,又会发生什么呢?
八、音频-文本模型
Whisper是OpenAI发布的一个大型开源语音识别模型,在英语语音识别方面有接近人类水平的鲁棒性和准确性。
OpenAI将Whisper开源,是否是为了解锁更多文本token,用以训练万众瞩目的GPT-4呢?
九、核聚变
DeepMind与瑞士洛桑联邦理工学院(EPFL)联合开发了第一个核聚变相关的深度强化学习系统,可以保持核聚变等离子体在托卡马克内的稳定。
同样在本月,美国能源部宣布了一项巨大的突破:人类首次实现了核聚变反应的净能量增益!
这是人类首次实现这一里程碑。这一生,我们或许会成为聚变文明!
十、应用于生物学的Transformer
此外,英伟达AI研究团队还拓展了BioNeMo大型语言模型的框架,以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。
每篇论文都是AI大厦里的一砖一瓦,所有的努力都应该庆祝。
不过,Fan在最后也强调,随着人工智能系统变得越来越强大,我们必须意识到潜在的危险和风险,并采取措施减轻它们。
参考资料: