李飞飞高徒盘点年度十大AI亮点：核聚变、ChatGPT、AlphaFold上榜

作者：梦空说生活发布时间：2023-03-06

ChatGPT

人工智能的爆炸正在扭曲我们的时间感。

你能相信StableDiffusion只有4个月大，而ChatGPT的出现还不到一个月吗？

打个形象的比喻，只要眨一下眼，你就会错过一个全新的行业。

而且，这些模型正在迅速走出实验室，在现实中被应用。

比如，LLM技术就启发了两个新兴的领域——决策代理（游戏、机器人等等）和AI4Science。

一、文字-图像生成

DALLE-2是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。

它启动了AI的艺术革命，催生了许多新的应用程序、初创公司和思维方式。

但DALLE-2被保护在OpenAI的围墙后面，并没有开源。

事实证明，StableDiffusion的开放性，让它给游戏带来了巨变。

现在，许多初创公司和研究实验室都在StableDiffusion的基础上创建新的应用程序，StableDiffusion本身也被开源社区不断改进。

最近，StableDiffusion已经达到了v2.1版本，可以在单个GPU上运行了。

Imagen

Parti

二、文字-文字生成

大家都知道，我说的是ChatGPT!

ChatGPT也大大启发了我们人类的创造力。

ChatGPT和GPT-3.5都使用了一种叫做RLHF（「从人类反馈中强化学习」）的新技术。

这也就意味着，提示工程或许很快就会消失了。

ChatGPT的流行，已经催生了一波新的创业公司和竞争者，比如JasperChat、YouChat、Replit的Ghostwriterchat，以及perplexity_ai。

这些竞争者提供了如此直观的搜索方式，连谷歌的高管们都开始出汗了!

三、文本-机器人模型

如何给GPT提供胳膊和腿，让它们能打扫你混乱的厨房？

与NLP不同，机器人模型需要与物理世界互动。

在今年，大的预训练Transformer终于开始解决机器人领域最难的问题了!

VIMA

它可以接收任何混合的文本、图像和视频作为prompt，并输出机器人手臂的控制。

我们的模型被称为VIMA（「VisuoMotorAttention」），已经完全开源了。

现在，单个智能体已经能够解决视觉目标、视频的一次性模仿、新概念基础、视觉约束等，具有了模型容量和数据的强大扩展性。

RT-1

这些数据是由13个机器人在17个月内收集的，是字面意义上的钢铁部队！

四、文本-视频

本质上说，视频就是随着时间的推移捆绑在一起的一系列图像，给我们创造了运动的错觉。

目前，文本-视频领域有3个重大的工作，但没有一个是开源的。

Make-A-Video

首先是MetaAI的Make-A-Video：不需要成对的文本-视频数据，就可以得到文本-视频的生成。

ImagenVideo

GoogleAI的ImagenVideo：它能使用扩散模型生成高清视频，基于Imagen静态图像生成器。

Phenaki

五、文本-3D建模

从设计创新产品到在电影和游戏中创造奇妙的视觉效果，3D建模正成为文本-X生成模型的下一片蓝海。

DreamFusion

首先登场的，是GoogleAI研究团队与UCBerkeley联合开发的DreamFusion。

该模型使用二维文本到图像的扩散模型来执行文本到三维的合成。

基于NeRF算法，DreamFusion可以通过给定文本生成3D模型。

该模型可以从任何角度查看，在任意照明下可以重新点亮，还可以合成到任何三维环境当中。

Magic3D

第二项成果，是英伟达AI团队的两个项目，名为GET3D和Magic3D。

GET3D仅使用二维图像进行训练，可生成具有高保真纹理和复杂几何细节的三维图形。

Magic3D与DreamFusion类似，使用文本到图像模型生成2D图像，然后优化为体积NeRF（神经辐射场）数据，将低分辨率生成的粗略模型优化为高分辨率的精细模型。

根据英伟达AI团队，由此产生的Magic3D方法，可以比DreamFusion更快地生成3D目标。

Point-E

继年初推出的DALL-E2用天才画笔惊艳所有人之后，周二OpenAI发布了最新的图像生成模型「POINT-E」，它可通过文本直接生成3D模型。

相比竞争对手们（如谷歌的DreamFusion）需要几个GPU工作数个小时，POINT-E只需单个GPU便可在几分钟内生成3D图像。

六、会玩《我的世界》的AI

《我的世界》是一款测试AI通用智能的绝佳游戏。首先，它是一款无限开放的沙盒游戏，极度体现玩家的创造力。

其次，该游戏有1.4亿的玩家群体，是英国总人口的两倍。用户基础如此庞大，供AI学习的游戏数据可谓是源源不绝。

那么，AI能否和人类一样尽情挥洒想象力呢？

Fan的最终目标是建立一个「具身的ChatGPT」。目前，MineDojo平台已经完全开源。

与此同时，JeffClune的团队宣布了一个名为视频预训练（VPT）的模型，该模型可以直接输出键盘和鼠标的动作。

VPT拥有更广阔的视野，但不受语言条件的限制。在这点上，MineDojo和VPT恰好相辅相成。

七、AI外交官

MetaAI推出的CICERO是第一个在《外交》游戏中实现人类水平表现的人工智能智能体。

然而，CICERO的出现表明，人工智能现在已经有说服他人和虚张声势的能力。

目前，DeepMind也宣布开发自己的外交官AI智能体。那么，如果CICERO使用这个AI模型，又会发生什么呢？

八、音频-文本模型

Whisper是OpenAI发布的一个大型开源语音识别模型，在英语语音识别方面有接近人类水平的鲁棒性和准确性。

OpenAI将Whisper开源，是否是为了解锁更多文本token，用以训练万众瞩目的GPT-4呢？

九、核聚变

DeepMind与瑞士洛桑联邦理工学院（EPFL）联合开发了第一个核聚变相关的深度强化学习系统，可以保持核聚变等离子体在托卡马克内的稳定。

同样在本月，美国能源部宣布了一项巨大的突破：人类首次实现了核聚变反应的净能量增益！

这是人类首次实现这一里程碑。这一生，我们或许会成为聚变文明！

十、应用于生物学的Transformer

此外，英伟达AI研究团队还拓展了BioNeMo大型语言模型的框架，以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。

每篇论文都是AI大厦里的一砖一瓦，所有的努力都应该庆祝。

不过，Fan在最后也强调，随着人工智能系统变得越来越强大，我们必须意识到潜在的危险和风险，并采取措施减轻它们。

参考资料：

近期资讯

ZAEKE知客 2024-09-27

德清教育发布：德清成人函授专科、本科报名

很多人20岁左右时觉得学历没什么用25岁后发现低学历阻碍了你就业、升职30岁有了工作经验，却因学历低不敢跳槽40岁左右又怕自己学历低影响孩子升学要知道，提升学历不是消费而是对未来的投资人生，因学历而不同有学历，一切就有可能开放教育，为你敞开一扇圆梦的大学门在学历的路上，愿你无问西东，只问初衷湖州师范学院成人高考专科本科学历提升正在热招中收费标准严格按照《浙江省物价局浙江省财政厅浙江省教育厅关于调整成人高等教育收费标准的通知》（浙价费〔2014〕245号）文件执行收费，具体如下：1.艺术类专业总学费为1

浙江继续教育 2024-09-27

企业邮箱高级技术设置与信息安全提升

Zoho Mail企业邮箱通过实施SPF/DKIM/DMARC配置、SSL/TLS加密、二次验证与MFA、高级访问控制和邮件过滤与信誉管理等高级技术设置，显著提升了企业信息安全。这些措施有效防止了邮件冒充、内容篡改、数据窃听和账户接管风险，确保了邮件来源的合法性和内容的保密性。同时，精细化的权限管理和垃圾邮件识别功能进一步提升了系统的安全性，为企业提供了一个安全可靠的电子邮件解决方案，有助于降低安全风险，提高工作效率和员工满意度。一、企业邮箱五种高级技术设置员工使用简单密码或在不同平台复用密码，容易被暴力

Zoho云服务 2024-09-27

网站建设公司如何避雷？4家靠谱的网站建设公司推荐

找到一家靠谱的建站公司那真的就如同抓住了救命稻草一般！！想象一下，要是建站公司人员不稳定，隔三差五就给咱换一批人来对接，那可就麻烦啦。之前好不容易沟通好的内容可能就得推倒重来，这多浪费时间呀。而且很有可能在价格、需求点的满足上被推翻，最后产出的东西不符合咱们的预期呢。那么对于一家不靠谱的网站建设公司，我们怎样去避雷呢？我总结出了不靠谱的网站建设公司的六大特点——1.数据造假——提供虚假案例或未落地的设计稿（有些建站公司提供虚假案例，还有的设计稿好看却无法落地，大家要谨慎选择。）2.专业度不足——不能精准明

优设计UDesign 2024-09-27

请查收，提高班报到须知！

转眼来到九月底，悠长的假期接近尾声，马上就又到了提高班开课的日子，经过一个月的休整，你的专业课知识是增多了还是减少呢？为了让大家提前进入到学习状态，从今日起大家可提前来学校报到啦！具体报到流程如下：报到须知报到时间今日起——9月30日为了让大家提前进入学习状态，错开课前两天报到高峰期，从今日起大家即可来校报到！报到专业备考25届一批的电工类考生报到地点河北省保定市竞秀区天威西路4929号vivi电力培训到校路线公共交通：保定站（火车站）：从西广场乘坐106路到刘家庄东口下车。保

VIVI电力培训 2024-09-27

李飞飞高徒盘点年度十大AI亮点：核聚变、ChatGPT、AlphaFold上榜

推荐体验

相关资讯

历史首次！《自然》公布“2023年度十大科学人物”，ChatGPT上榜

ChatGPT入选Nature年度十大人物，缔造者Ilya也上榜了

OpenAI首席科学家入选《自然》年度十大人物 ChatGPT也有上榜

微软和ChatGPT之父下注核聚变：2028年用上核聚变商业发电

盘点AWS re:Invent 2023大会值得关注的十大亮点

近期资讯

活动预告 | 9月28日，杭州阿里见！

监控电脑端微信的五个方法，偷偷收藏，别让员工知道

好消息：英伟达准备发布5090显卡！坏消息：4090显卡要停产了！

SOLIDWORKS Flow Simulation对几何模型都有哪些要求？

口袋参谋：揭秘：15秒快速增销量的“真相”

比亚迪中大型MPV夏开启盲订，预计年内上市

德清教育发布：德清成人函授专科、本科报名

企业邮箱高级技术设置与信息安全提升

网站建设公司如何避雷？4家靠谱的网站建设公司推荐

请查收，提高班报到须知！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响