欢迎收看最新一期的 Hunt Good周报!
在本期内容你会看到:
7 条新鲜 资讯
5 个有用 工具
1 个有趣 案例
3 个鲜明 观点
Hunt for News|先进头条
💥 OpenAI CTO:Sora 有望在数月内发布
OpenAI 首席技术官 Mira Murati 近日接受了华尔街日报的访谈中透露,OpenAI 计划在年内推出 Sora 视频生成工具,但可能还需要几个月的等待。
Murati 称 Sora 未来还将添加音频生成功能,以增强视频场景的真实感。
至于 Sora 备受关注的训练数据问题,她表示 OpenAI 仅仅使用了公开或已授权的数据,但并未透露更多细节。
此外,她透露,根据根据文本提示的复杂度,Sora 生成一段 20 秒的 720p 视频大约只需要几分钟时间。
在内容生成方面,Sora 将不允许生成公众人物的图像。在 Sora 正式发布之前,OpenAI 将对其进行严格的安全测试,以确保 Sora 的使用安全。
🔗 https://www.wsj.com/video/china/5EACA9D5-EA8A-40A0-98A0-D9120A2ED55E.html
🤖 ChatGPT 终于有身体了
近日,人形机器人明星公司 Figure AI 震撼发布了一段视频,展示了他们的机器人 Figure 01 在 OpenAI 强大模型的支持下,进行的一系列对话交互。
视频中的机器人展现出了灵活的操作反应,其与人类沟通的流畅度几乎可以与真人相媲美。
例如,它能迅速识别并递上食物,如苹果,还能执行如收拾餐具等家务。具体演示视频如下(已翻译)👇
🔗 https://twitter.com/Figure\_robot/status/1767913661253984474
🚀 第三次试飞,星舰成功进入太空
当地时间 3 月 14 日,美国 SpaceX 公司在德克萨斯州博卡奇卡进行第三次「星舰」(Starship)重型运载火箭的无人飞行测试。
本次测试的发射成本大幅降低,仅为之前的五分之一,成功实现了关键性的热分离,并首次完成了太空滑行。不过,飞船在升空约一个小时后,接近完成其预定在印度洋的溅落目标时与地面失去联系。
星舰的前两次发射均以失败告终。第一次发射中,星舰未能成功与推进器分离并发生解体;第二次发射中,星舰在一级火箭分离后不久爆炸。
马斯克本人也在 X 上分享了一些星舰飞行的照片。
向左滑动查看更多内容
🔗 https://twitter.com/SpaceX/status/1768807328021917716
🎨 腾讯图生视频大模型上线
3 月 15 日,腾讯混元联合清华大学和香港科技大学发布了创新的图生视频模型「Follow Your Click」。
基于输入模型的图片,创作者只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。
据了解,腾讯混元大模型作为技术合作伙伴,支持打造了原创视频《江山如此多娇》,生成中国大美河山的精美视频片段,展示出了较强的内容理解、逻辑推理和画面生成能力。
论文链接:[2403.08268] Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts
🔗 https://follow-your-click.github.io/
马斯克宣布 Grok 将于本周开源
3 月 11 日,埃隆 · 马斯克(Elon Musk)在社交平台 X 上宣布,其 AI 初创公司 xAI 将在本周开源其 AI 大模型 Grok。截至发稿前,Grok 尚未开源。
该条推文的评论区有网友表示,OpenAI 也应当如此,如果它就像它的名字那样「open」。马斯克回复:「OpenAI 就是一个谎言」。
马斯克在上周起诉 OpenAI,称其违背了公司成立的协议,公司不再以造福人类为目标。并且偏离了开源的根源,成为了「微软的闭源子公司」。
xAI 于去年发布了 Grok,配备了包括「实时信息」在内的功能。用户每月向 X 支付 16 美元的订阅费用则可以使用该服务。
📈 Meta 公布 Llama 3 训练集群细节
Meta AI 近日发布了一份技术博客,详细介绍了 Meta 在 AI 基础设施方面的具体规划和路线图。
根据 Meta 的计划,到 2024 年底,公司将拥有 35 万个英伟达 H100 GPU,未来算力储备将达到 60 万个 H100。
Meta 还公布了用于训练 Llama 3 的 24576 个 H100 GPU 集群细节,包括网络、存储和 PyTorch 使用情况。
计算平台方面,两个集群均使用 Meta 内部设计的 Grand Teton 开放式 GPU 硬件平台,该平台已贡献给开放计算项目(OCP)。
性能方面,Meta 构建的大规模 AI 集群旨在同时提升性能和易用性。通过比较小型和大型集群的性能,识别并解决了瓶颈问题,从而显著提升了 Meta 大型集群的性能。
🔗 https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
📰 普利策奖开始拥抱人工智能
据 NiemanLab 报道,今年的普利策奖正在评估对使用生成性 AI 的参赛作品的处理方式。
在 45 位普利策新闻奖决赛选手中,有五位在研究、报道或作品呈现过程中运用了 AI 技术。这是普利策奖首次要求参赛者明确披露 AI 的使用情况,且这一新规定仅适用于新闻类作品。
普利策奖评委 Marjorie Miller 透露,随着生成性AI技术的普及,评委会自去年起便开始讨论相关的 AI 政策。
Miller 强调,评委会并未考虑过限制 AI 的使用,因为他们认为这将阻碍新闻界接触和利用创新技术。
🔗 https://www.niemanlab.org/2024/03/five-of-this-years-pulitzer-finalists-are-ai-powered/?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=ai-developer-codes-websites-by-itself
Hunt for Tools|先进工具
👄 Runway 内测唇型同步功能
继 Pika 之后,Runway ML 近日也在内测唇形同步功能。
以下是网友分享的一些案例👇
中文歌曲演唱:
🔗 https://twitter.com/vkuoo/status/1768809997025300708
🖌️ Midjourney 角色一致性功能上新
Midjourney 最新功能「角色一致性」近日正式发布。该功能通过与角色参照图像的匹配,确保角色在创作中保持一致性。
使用方法简单,只需在指令后添加 --cref 后跟角色图像的 URL 即可。用户还可以通过 --cw 参数调整参照强度,从 100 到 0 不等,以适应不同的创作需求。
视频来自:@op7418
此功能对真人照片的适用性较低,更适合 Midjourney 创作的图像。值得注意的是,角色一致性功能无法精确复制极细微的特征,比如特定的酒窝、雀斑或 T 恤上的标志。
🔗 https://venturebeat.com/ai/midjourney-debuts-feature-for-generating-consistent-characters-across-multiple-gen-ai-images/
🎉 阿里通义千问功能上新
本周,阿里通义千问推出免费的文档解析功能。
针对单个文档,通义千问的文档解析功能可以处理长达万页的文档,相当于约 1000 万字的中文内容。用户只需在官网或 APP 上传文档,即可向 AI 模型提出问题,获取快速准确的回答。
此外,该功能还支持一键速读多达 100 份不同格式的资料,以及在线网页内容的解析,使得用户能够在短时间内获取大量信息。
🔗 https://mp.weixin.qq.com/s/Tujf71l6CDOPi0yeE6Gdgw
🧑🏻💻 首个 AI 软件工程师上线
初创公司 Cognition AI 近日推出了全球首个完全自主的 AI 软件工程师 Devin。
Devin 展现出了强大的编程能力,能够独立完成复杂任务,并通过自我学习和调整提升性能。
在实际测试中,Devin 成功解决了开源项目中的真实问题,并在编码基准测试中超越了 GPT-4、Claude 2 等模型。
Cognition AI 的团队目前就 10 个人,华人面孔多,人才密集度过高——DeepMind、Waymo 等大厂的工作经历,10 枚国际信息学奥林匹克竞赛金牌。
具体内容欢迎回看 APPSO 以前文章:
全球首个AI程序员来了!超越GPT-4震撼硅谷,但取代码农为之尚早
🔗 https://twitter.com/cognition\_labs/status/1767548763134964000
🎮 Google 通用 AI 智能体发布
近日,Google Deepmind 发布了一项关于通用 AI 代理 SIMA 的新研究。
SIMA 能够根据自然语言指令在多个 3D 视频游戏环境中执行任务,不仅能够在特定的游戏中表现出色,而且能够泛化其学习成果,适应并执行在全新游戏环境中的任务。
通过与游戏开发者合作,SIMA 接受了多种游戏的训练,从而学会了从基本的导航和资源收集到复杂的飞船驾驶和物品制作等一系列功能。
SIMA 的核心能力在于其图像-语言映射和视频模型,它不需要游戏的源代码或特殊 API,仅依赖屏幕上的图像和用户的自然语言指令即可控制游戏角色。
🔗 https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
Hunt for Fun|先行
🧑🎨 Gallerix:线上艺术博物馆
Gallerix 是一个汇集了近 4 万名艺术家、170000 幅世界知名艺术作品的在线艺术博物馆。
在这个数字艺术平台上,你可以穿越时空,欣赏从文艺复兴到现代艺术的各个时代和风格。
油画的厚重、水彩的清新、铅笔画的细腻,每一种艺术形式都能在这里找到其独特的表达。
附上体验地址:https://gallerix.asia/
🔗 https://twitter.com/xiaoying\_eth/status/1768525801128177799
Hunt for insights|先知
👀 马斯克:明年 AI 将比任何人都聪明
近日,马斯克在 X 上大胆预测:「明年 AI 可能会比任何人类个体都聪明,到 2029 年,AI 可能比所有人类加起来还要聪明。」
这段见解是马斯克在观看《奇点临近》作者 Ray Kurzweil 的视频节目后提出的。视频中,Kurzweil 预测 AI 有望在 2029 年达到与人类智能相当的水平。
Kurzweil 说道:「我们还没有完全做到这一点,但我们一定会实现。我预测到 2029 年,AI 将与任何人类能力相匹配。但我这种预测实际上仍然被认为是保守的,人们认为这种情况在明年或后年就可能发生。」
值得一提的是,对于马斯克的预测,Meta 首席科学家、图灵奖得主 Yann Lecun 发文称:「不, 如果这是真的,我们应该已经有能够通过 20 小时练习自学驾驶汽车的 AI 系统,就像 17 岁的年轻人那样。
但实际上,尽管我们(你)已经拥有了数百万小时标注过的训练数据,我们仍然没有完全自主且可靠的自动驾驶技术。」
🔗 https://twitter.com/elonmusk/status/1767738797276451090
🐧 百川智能 CEO 王小川:Sora 做不到世界模型
近日,百川智能 CEO 王小川接受了腾讯新闻 《潜望》栏目的采访。
王小川表示:「今天的 Sora 没有懂物理规律,没有深入到后面的分子、细胞相变,它只是模拟引擎。因此 Sora 要把物理学全都学会才会变成 world model,世界引擎。这也跟语言相关。语言为中轴,Sora 只是模拟器,做不到世界模型。」
谈及中美在 AI 生态上的差异,王小川认为,美国的方式类似于带着解决方案寻找问题,而中国则需要迅速开拓应用场景,利用数据驱动的飞轮效应,甚至构建起全球化的竞争优势。
关于追赶 GPT-4 和 Sora 的时间表,王小川表示:「Sora 不在我们的主线,Sora 的高度、突破性、应用价值低于 GPT。」
🔗 https://mp.weixin.qq.com/s/\_q1xA\_EGEVonI32U1LgdSw
👏 DeepMind 联创:AGI 突破在望,广泛应用尚需时日
Google DeepMind 联合创始人 Shane Legg 在最新访谈中提出,AGI 虽有望在几年内取得突破,但其广泛应用仍需数十年时间。
Legg 强调,尽管 AGI 在基础模型层面上的实现指日可待,但要使其得到广泛部署和实际使用,还需成熟的条件。他指出,如果 AGI 无法在经济上实现可行性,那么无论其技术潜力多么巨大,企业也不会选择大规模采用。
在他看来,根据 Google DeepMind 设定的六级标准,目前的基础模型已经达到了 AGI 的第三级别,这一级别被称为「专家」级别。然而,这仍然属于擅长特定任务的「狭义」AI。
而最高级第五级别则代表模型达到人工超级智能,能够超越所有人类。他还预言道:「我相信 AGI 的到来是可能的,甚至可能比我们想象的更快。一旦实现,它将为社会带来深远的变革。」
此外,Legg 讨论了科学家为何应追求 AGI 而非停留在现有的狭义 AI。他认为,某些类型的问题将从大型和多样化的数据集中受益,而一个通用 AI 系统将为狭义 AI 提供解决一系列相关问题的基础和架构。
🔗 https://aibusiness.com/responsible-ai/deepmind-co-founder-practical-agi-is-decades-away-sxsw-2024?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=ai-developer-codes-websites-by-itself
彩蛋时间
向左滑动查看更多内容
作者:@blade2019runner
链接:https://twitter.com/blade2019runner/status/1653943224833298432