李飞飞高徒盘点年度十大AI亮点：核聚变、ChatGPT、AlphaFold上榜

作者：梦空说生活发布时间：2023-03-06

ChatGPT

人工智能的爆炸正在扭曲我们的时间感。

你能相信StableDiffusion只有4个月大，而ChatGPT的出现还不到一个月吗？

打个形象的比喻，只要眨一下眼，你就会错过一个全新的行业。

而且，这些模型正在迅速走出实验室，在现实中被应用。

比如，LLM技术就启发了两个新兴的领域——决策代理（游戏、机器人等等）和AI4Science。

一、文字-图像生成

DALLE-2是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。

它启动了AI的艺术革命，催生了许多新的应用程序、初创公司和思维方式。

但DALLE-2被保护在OpenAI的围墙后面，并没有开源。

事实证明，StableDiffusion的开放性，让它给游戏带来了巨变。

现在，许多初创公司和研究实验室都在StableDiffusion的基础上创建新的应用程序，StableDiffusion本身也被开源社区不断改进。

最近，StableDiffusion已经达到了v2.1版本，可以在单个GPU上运行了。

Imagen

Parti

二、文字-文字生成

大家都知道，我说的是ChatGPT!

ChatGPT也大大启发了我们人类的创造力。

ChatGPT和GPT-3.5都使用了一种叫做RLHF（「从人类反馈中强化学习」）的新技术。

这也就意味着，提示工程或许很快就会消失了。

ChatGPT的流行，已经催生了一波新的创业公司和竞争者，比如JasperChat、YouChat、Replit的Ghostwriterchat，以及perplexity_ai。

这些竞争者提供了如此直观的搜索方式，连谷歌的高管们都开始出汗了!

三、文本-机器人模型

如何给GPT提供胳膊和腿，让它们能打扫你混乱的厨房？

与NLP不同，机器人模型需要与物理世界互动。

在今年，大的预训练Transformer终于开始解决机器人领域最难的问题了!

VIMA

它可以接收任何混合的文本、图像和视频作为prompt，并输出机器人手臂的控制。

我们的模型被称为VIMA（「VisuoMotorAttention」），已经完全开源了。

现在，单个智能体已经能够解决视觉目标、视频的一次性模仿、新概念基础、视觉约束等，具有了模型容量和数据的强大扩展性。

RT-1

这些数据是由13个机器人在17个月内收集的，是字面意义上的钢铁部队！

四、文本-视频

本质上说，视频就是随着时间的推移捆绑在一起的一系列图像，给我们创造了运动的错觉。

目前，文本-视频领域有3个重大的工作，但没有一个是开源的。

Make-A-Video

首先是MetaAI的Make-A-Video：不需要成对的文本-视频数据，就可以得到文本-视频的生成。

ImagenVideo

GoogleAI的ImagenVideo：它能使用扩散模型生成高清视频，基于Imagen静态图像生成器。

Phenaki

五、文本-3D建模

从设计创新产品到在电影和游戏中创造奇妙的视觉效果，3D建模正成为文本-X生成模型的下一片蓝海。

DreamFusion

首先登场的，是GoogleAI研究团队与UCBerkeley联合开发的DreamFusion。

该模型使用二维文本到图像的扩散模型来执行文本到三维的合成。

基于NeRF算法，DreamFusion可以通过给定文本生成3D模型。

该模型可以从任何角度查看，在任意照明下可以重新点亮，还可以合成到任何三维环境当中。

Magic3D

第二项成果，是英伟达AI团队的两个项目，名为GET3D和Magic3D。

GET3D仅使用二维图像进行训练，可生成具有高保真纹理和复杂几何细节的三维图形。

Magic3D与DreamFusion类似，使用文本到图像模型生成2D图像，然后优化为体积NeRF（神经辐射场）数据，将低分辨率生成的粗略模型优化为高分辨率的精细模型。

根据英伟达AI团队，由此产生的Magic3D方法，可以比DreamFusion更快地生成3D目标。

Point-E

继年初推出的DALL-E2用天才画笔惊艳所有人之后，周二OpenAI发布了最新的图像生成模型「POINT-E」，它可通过文本直接生成3D模型。

相比竞争对手们（如谷歌的DreamFusion）需要几个GPU工作数个小时，POINT-E只需单个GPU便可在几分钟内生成3D图像。

六、会玩《我的世界》的AI

《我的世界》是一款测试AI通用智能的绝佳游戏。首先，它是一款无限开放的沙盒游戏，极度体现玩家的创造力。

其次，该游戏有1.4亿的玩家群体，是英国总人口的两倍。用户基础如此庞大，供AI学习的游戏数据可谓是源源不绝。

那么，AI能否和人类一样尽情挥洒想象力呢？

Fan的最终目标是建立一个「具身的ChatGPT」。目前，MineDojo平台已经完全开源。

与此同时，JeffClune的团队宣布了一个名为视频预训练（VPT）的模型，该模型可以直接输出键盘和鼠标的动作。

VPT拥有更广阔的视野，但不受语言条件的限制。在这点上，MineDojo和VPT恰好相辅相成。

七、AI外交官

MetaAI推出的CICERO是第一个在《外交》游戏中实现人类水平表现的人工智能智能体。

然而，CICERO的出现表明，人工智能现在已经有说服他人和虚张声势的能力。

目前，DeepMind也宣布开发自己的外交官AI智能体。那么，如果CICERO使用这个AI模型，又会发生什么呢？

八、音频-文本模型

Whisper是OpenAI发布的一个大型开源语音识别模型，在英语语音识别方面有接近人类水平的鲁棒性和准确性。

OpenAI将Whisper开源，是否是为了解锁更多文本token，用以训练万众瞩目的GPT-4呢？

九、核聚变

DeepMind与瑞士洛桑联邦理工学院（EPFL）联合开发了第一个核聚变相关的深度强化学习系统，可以保持核聚变等离子体在托卡马克内的稳定。

同样在本月，美国能源部宣布了一项巨大的突破：人类首次实现了核聚变反应的净能量增益！

这是人类首次实现这一里程碑。这一生，我们或许会成为聚变文明！

十、应用于生物学的Transformer

此外，英伟达AI研究团队还拓展了BioNeMo大型语言模型的框架，以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。

每篇论文都是AI大厦里的一砖一瓦，所有的努力都应该庆祝。

不过，Fan在最后也强调，随着人工智能系统变得越来越强大，我们必须意识到潜在的危险和风险，并采取措施减轻它们。

参考资料：

近期资讯

雷军:湖北最大小米之家汽车体验店开业全国门店逼近200

近日，小米公司董事长雷军在武汉电视台报道中表示，湖北最大小米之家汽车体验店已经盛大开业。除了多台小米SU7展车外，该门店还展出了车辆选配、外观和内饰配色等商品。预计到12月底，全国门店数量将达到近200家。

中关村在线 2024-12-18

电视机排行榜，这五款65英寸电视推荐，2000元左右最佳选择

特别是65英寸的大屏幕电视，其售价已经不再高昂，成为了许多家庭更新换代的理想选择。今天，地瓜将为大家推荐几款性价比极高的65英寸电视，这些产品不仅在性能上表现出色，而且价格均控制在2000元左右。这款电视配备了安桥2.1声道音响系统，能够营造出身临其境般的环绕声效果，无论是观看电影还是聆听音乐都能享受到高品质的声音表现。

小米地瓜 2024-12-18

国内超百家企业布局抗体偶联药物研发，这些产品有望明年获批上市

国内研发进展方面，已有多款ADC在今年申报上市，或在明年获批。理论上来讲，任何一个部分都可与其他部分进行偶联，这意味着，通过多样“组合”，可迭代出新的产品。2023年，全球ADC药物市场规模首次突破100亿美元，其中5款销售额超10亿美元，跻身“重磅炸弹”。

新京报 2024-12-18

进阶升级！甘肃电信发布5G－A新产品

人民网兰州12月18日电(记者黄帆)12月18日，中国电信股份有限公司甘肃分公司(以下简称甘肃电信)在智慧甘肃科技馆发布5G-A品牌、商业套餐，公布5G-A网络建设情况。5G-A具备更高速率、更大连接、更低时延等特点，近年来，甘肃电信积极探索5G-A网络应用落地，全面升级5G-A网络能力。

金台资讯 2024-12-18

国内首个智能机器人灵巧手大赛决赛重磅来袭

12月19日至21日，深圳智能机器人灵巧手大赛决赛将与AIRS2024国际人工智能与机器人大会同期在香港中文大学（深圳）礼文堂举办。

深圳商报 2024-12-18

原材料工业优化升级行动方案出炉

12月17日，工业和信息化部举行新闻发布会，介绍《标准提升引领原材料工业优化升级行动方案（2025~2027年）》有关情况，以及推动原材料工业高质量发展举措、成效。

每日经济新闻 2024-12-18

首飞成功！成都彭州“空中快递员”上岗，预计明年配送航线超64条

12月18日，红星新闻记者从成都彭州市获悉，首架用于邮政配送的无人机在彭州市首飞成功，它载着报刊和村民的快递包裹，开启了“云上邮路”的创新探索之旅。尽管山区已修建道路，但随着电商业务在山区的逐步拓展，包裹数量呈井喷式增长，传统配送方式难以满足日益增长的需求。“空中快递员”的出现，给山区邮件投递带来了显著变化。

红星新闻 2024-12-18

摩根大通：iPhone 16周期的平均份额与15相比继续按年下降

钛媒体App12月18日消息，摩根大通援引Wave7Research在10月至11月间对美国各运营商销售趋势的调查称，苹果iPhone16周期的平均份额与iPhone15相比继续按年下降。尽管人们预期苹果人工智能功能将成为推动升级周期的关键因素，但消费者对该功能的认知度较低可能是导致销售势头疲软的主要原因。

钛媒体快报 2024-12-18

AI赋能艺术创新 2025 DA SHOW国际数字艺术联想大赛启动

12月18日，生成式人工智能迅速发展的今天，科技与艺术正以前所未有的方式深度交融。今日“2025DASHOW国际数字艺术联想大赛”新闻发布会在北京举行，标志着此项赛事正式启动。活动面向全球数字艺术家和高校学生，采用“在线提交作品+路演提案”的模式，为年轻创意人才提供展示和交流的机会。

和讯网 2024-12-18

湖湘卓越工程师丨徐峥勇：在大好河山下搞科研的“掌舵手”

编者按：科技是国家强盛之基，创新是民族进步之魂。湖南大学环境工程博士毕业后，他辗转过多个政府单位部门，不过始终与环保领域打交道，深刻感受到要把核心技术掌握在自己手里。

红网 2024-12-18

李飞飞高徒盘点年度十大AI亮点：核聚变、ChatGPT、AlphaFold上榜

推荐体验

相关资讯

历史首次！《自然》公布“2023年度十大科学人物”，ChatGPT上榜

ChatGPT入选Nature年度十大人物，缔造者Ilya也上榜了

OpenAI首席科学家入选《自然》年度十大人物 ChatGPT也有上榜

微软和ChatGPT之父下注核聚变：2028年用上核聚变商业发电

历史首次，Nature公布“2023年度十大科学人物”，非人类ChatGPT上榜

近期资讯

雷军:湖北最大小米之家汽车体验店开业全国门店逼近200

电视机排行榜，这五款65英寸电视推荐，2000元左右最佳选择

国内超百家企业布局抗体偶联药物研发，这些产品有望明年获批上市

进阶升级！甘肃电信发布5G－A新产品

国内首个智能机器人灵巧手大赛决赛重磅来袭

原材料工业优化升级行动方案出炉

首飞成功！成都彭州“空中快递员”上岗，预计明年配送航线超64条

摩根大通：iPhone 16周期的平均份额与15相比继续按年下降

AI赋能艺术创新 2025 DA SHOW国际数字艺术联想大赛启动

湖湘卓越工程师丨徐峥勇：在大好河山下搞科研的“掌舵手”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响