当前位置:首页|资讯|腾讯|英伟达|生成式AI

腾讯研究院AI速递 20240304

作者:腾讯研究院发布时间:2024-03-04

原标题:腾讯研究院AI速递 20240304

生成式AI

一、 戴尔剧透英伟达B200明年发布,能耗高达1000W,AI终极利好的是:能源?

1. 戴尔公司预告英伟达将于2025年推出功耗高达1000W的B200产品,基于“Blackwell”架构,预示AI和高性能计算领域的重大进展;

2. B200的功耗预计比现有的H100产品高出40%以上,可能采用更先进的3nm工艺技术,或为双芯片设计,以应对高能耗和散热挑战;

3. 随着人工智能技术的快速发展,对芯片的需求激增,同时也导致对电力需求的大幅增长,这可能促进对电力、油气等能源股的投资兴趣上升,甚至包括核能。

https://mp.weixin.qq.com/s/6lxPdEHwhePMbHPEYAMViA

二、 RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

1. 谷歌DeepMind推出新架构Hawk和Griffin,挑战传统Transformer模型,展示RNN在AI领域的新潜力;

2. Hawk和Griffin模型在同等规模下展现出优于Mamba的性能,证明了它们在处理效率和下游任务性能上的竞争力;

3. 这两个模型实现了与Transformer相当的训练效率,并在推理过程中提供更高的吞吐量和更低的延迟,尤其在处理长序列数据时性能更佳。

https://mp.weixin.qq.com/s/RtAZiEzjRWgqQw3yu3lvcg

三、 最新视频:OpenAI Sora 图生视频全新升级!最新生成指令和示例第二弹

新的提示词生成:1. 飞越博物馆之旅,那里有许多绘画和雕塑以及各种风格的精美艺术品;

2. 3D 打印机在灯光昏暗的办公室中打印一个小红色立方体的延时特写镜头;

3. 一只中等体型、看上去很友善的狗走过一个工业停车场。环境多雾、多云。采用35mm胶片拍摄,色彩鲜艳。

https://mp.weixin.qq.com/s/e8FLSut8CjfPen-FaUZuuQ

四、 给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实

1. 香港大学的Jihan Yang和纽约大学的谢赛宁联合发布研究,通过V-IRL项目将真实世界信息如地图、街景融入虚拟环境中,为AI智能体提供一个模拟的真实世界环境;

2. V-IRL利用真实世界的地理空间数据和街景图像等API,使得AI智能体能在模拟的真实城市中执行复杂任务,提供了前所未有的规模和多样性的测试平台;

3. 研究展示了智能体在V-IRL环境中解决实际任务的能力,如语言驱动的餐馆推荐、视觉驱动的城市辅助任务等,同时强调了通过V-IRL提高AI在环境理解、决策制定和处理现实世界信息的能力的潜力。

https://mp.weixin.qq.com/s/YMHjCaJ0Si7u0yTHBjmPRQ

五、 北大发起 Open-Sora计划:复现Sora模型「与OpenAI差距巨大只因缺资源」

1. 北京大学发起Open-Sora开源计划,目标是复现OpenAI的Sora视频生成模型,但承认与OpenAI的技术和资源差距巨大;

2. Open-Sora项目构建了基础架构,包括Video VQ-VAE、Denoising Diffusion Transformer、和Condition Encoder,旨在通过开源社区的力量逐步完善和增加模块;

3. 项目特点包括可变长宽比、可变分辨率和可变时长的视频处理能力,尽管目前仍在初期阶段,北大团队希望开源社区能共同参与项目的发展。

https://mp.weixin.qq.com/s/xmPFPxGT0KHpTtxfXRQesw

六、 存量视频AI编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景

1. 浙江大学、微软亚洲研究院等研究者提出了UniEdit,一个基于文本描述的视频编辑统一框架,支持多种编辑场景,包括动作编辑、风格迁移、背景替换等,无需训练,便于部署和使用;

2. UniEdit特点包括多功能性,支持包括动作在内的多种视频编辑场景;无需训练,可直接利用预训练模型进行编辑;以及高度灵活性,兼容不同的文本到视频生成模型;

3. 技术上,UniEdit通过引入辅助动作参考分支和视频重建分支,实现了高效的内容保留和动作注入,使得编辑视频既保持了时序一致性又符合文本描述的编辑要求。

https://mp.weixin.qq.com/s/-l0aWYNbM8lZRdry4OY-PQ

七、 大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

1. 谷歌DeepMind、UC伯克利和MIT的研究人员提出,大视频模型通过模仿大语言模型的方式,能够理解并执行世界模型不擅长的任务,这可能彻底改变物理世界的决策过程;

2. 大视频模型能够统一不同的实体观察空间,支持多种任务如计算机视觉、自动驾驶和机器人的视觉执行计划,利用视频数据吸收互联网上的广泛信息;

3. 视频生成模型的应用范围广泛,不仅限于生成娱乐视频,还可用于模拟复杂游戏环境、机器人与自动驾驶策略评估、以及科学与工程领域的视觉模拟,展示了将视频生成技术应用于现实世界任务的巨大潜力。

https://mp.weixin.qq.com/s/pMzISIodXUO92cik8uJS7Q

前沿科技

八、 OpenAI、英伟达重金下注下一方向,这家机器人公司凭什么估值 26 亿美元

1. Figure AI, 一家专注于开发自主通用型人形机器人的初创公司,获得了 B 轮 6.75 亿美元融资,投资者包括 OpenAI、微软、英伟达和亚马逊创始人杰夫·贝佐斯,估值达到 26 亿美元;

2. 创始人 Brett Adcock 拥有丰富的创业经验和对未来机器人技术的宏大愿景,目标是让机器人执行多样化的任务,解决劳动力短缺问题;

3. 科技巨头的投注反映了对机器人技术潜力的认可,同时也指出了人形机器人研发的复杂性和挑战性,但其成功商业化的路途仍然充满未知。https://mp.weixin.qq.com/s/eliTXUTdHUWoW_HiY-7c-g

报告观点

九、 十年内出现AGI?下一代Gemini感知环境?DeepMind CEO哈萨比斯谈AI

1. DeepMind CEO Demis Hassabis 期待在未来十年内可能出现类似于全面通用人工智能(AGI)的系统,指出大型语言模型(LLM)的进步显示了普遍智能的潜力;

2. Hassabis 讨论了结合强化学习(RL)和大型模型,如 AlphaZero,以推进向 AGI 的发展,认为增加模型规模虽有成就,但实现 AGI 还需创新;

3. 关于 AI 安全和治理,Hassabis 强调需要跨领域合作,使用诸如 narrow AI 辅助分析、强化沙盒等方法,以负责任地控制和利用超人类智能技术。

https://mp.weixin.qq.com/s/MMaeLRpo37Ot_9P5mjj5wg

十、 AMD CTO访谈全文:AI推理芯片需求猛增,GPU供应短缺或将得到缓解

1. AMD的MI300芯片在性能、功耗和架构空间方面相比竞争对手提供了优势,致力于开源以强化合作和创新,并确保产品在主流深度学习框架上的高性能和稳定性;

2. 随着AI定制推理芯片需求的增长,AMD计划提供更多定制化计算产品以回应需求。尽管当前GPU供应受限,但预计未来这一限制将消失,AMD重视提升能效作为优先事项;

3. 2024年,AMD预计将在云端、边缘计算、个人电脑、嵌入式设备及游戏设备等领域实现重大部署,加强在AI领域的地位,特别是在AI推理和大型语言模型训练及推理中。

https://mp.weixin.qq.com/s/jfWkYZBXGPzkC5QbZNdTnw

十一、 吴晓波频道:马斯克手撕奥特曼始末,这恐怕是AI史上最重要的一场官司

1. 马斯克起诉OpenAI及其高层,指控其背离创立初衷,由非营利组织转为追求利润的商业公司,并与微软建立独家合作关系;

2. 马斯克和奥特曼之间存在深刻的理念和利益分歧,从OpenAI的创立到后来的发展方向,两人的冲突逐渐公开化;

3. 这场官司可能成为AI史上关于版权诉讼等问题至关重要的案件,反映出技术发展与伦理、商业化之间的复杂冲突。

https://mp.weixin.qq.com/s/sSvfbH5bw3GRtgNFETngNQ

https://docs.qq.com/sheet/DYXVhemNFem1XZ2ZC?tab=BB08J2


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1