当前位置:首页|资讯|Sora|Midjourney

Sora下一个大更新的秘密武器,可能藏在三年前推出的这个模型里 | Hunt Good周报

作者:AppSo发布时间:2024-03-11

原标题:Sora下一个大更新的秘密武器,可能藏在三年前推出的这个模型里 | Hunt Good周报

欢迎收看最新一期的 Hunt Good周报

在本期内容你会看到:

6 条新鲜

4 个有用

1 个有趣 案例

3 个鲜明 观点

Hunt for News|先进头条

🧠 融资 6.75 亿美元,Figure AI 要将 GPT 塞进机器人大脑

人形机器人公司 Figure AI 最近宣布完成了一笔约 6.75 亿美元的融资,使得公司的估值达到了 26 亿美元。

这一轮融资的投资者阵容非常强大,包括微软、OpenAI 创业基金、英伟达、 Jeff Bezos、Parkway Venture Capital、Intel Capital 和 Align Ventures。

这笔资金将用于加速Figure AI的人形机器人产品的研发和商业部署。同时,Figure AI 还与 OpenAI 达成了技术合作,专为人形机器人打造下一代 AI 多模态模型。

Figure AI 的愿景是开发能够对人类产生积极影响的通用人形机器人,以消除不安全、不受欢迎的工作需求,让人类过上更幸福的生活。

🔗 https://twitter.com/Figure_robot/status/1763202496959521036

⚡️ 马斯克起诉 OpenAI 及其 CEO,要求恢复开源

近日,埃隆·马斯克在旧金山高等法院对 OpenAI 及其 CEO Sam Altman 提起了诉讼。

马斯克指控 OpenAI 违背了其成立时的初衷,即开发人工智能技术以造福人类,而不是为了追求利润。

在马斯克看来,OpenAI 与微软的合作关系已经使得 OpenAI 实际上成为了微软的一个闭源子公司,这与 OpenAI 网站上宣称的使命——确保通用人工智能(AGI)惠及全人类——背道而驰。

马斯克要求 OpenAI 恢复其技术的开源状态,并禁止 OpenAI、Altman 以及微软从 OpenAI 的AGI技术中获利。

他还特别提到了 OpenAI 的 GPT-4 模型,认为其保密性是出于商业考虑,而不是安全考虑,这与 OpenAI 最初的开源使命相违背。

据彭博社报道,根据 OpenAI 发送给员工的内部备忘录,该公司坚决反对马斯克对该公司提起的诉讼。

对此,OpenAI 的首席战略官 Jason Kwon 反驳了马斯克关于 OpenAI 是微软『事实上的子公司』这一说法,并表示马斯克的观点「可能源于其对如今没有参与该公司的遗憾」。

在备忘录中,Jason Kwon 强调了 OpenAI 的核心使命,即确保通用人工智能(AGI)能够为全人类带来利益。他还明确表示,OpenAI 保持独立性,并与微软在市场上展开直接竞争。

值得一提的是,马斯克曾是 OpenAI 的联合创始人之一,并在公司早期提供了大部分资金支持。然而,他在 2018 年离开了 OpenAI 董事会,原因是与 Altman 在研发方向上存在分歧。

🔗 https://www.bloomberg.com/news/articles/2024-03-01/openai-says-it-categorically-disagrees-with-musk-s-suit?srnd=technology-vp

🍎 苹果十年造车,一朝梦碎

本周,据彭博社援引知情人士消息,苹果公司已经决定取消长达十年的造车计划。

知情人士透露,苹果首席运营官 Jeff Williams 和负责造车项目的副总裁 Kevin Lynch 本周二在内部宣布了这一决定。消息一出,「近 2000 名员工感到惊讶」。

两名高管还告诉员工,造车项目组里的部分员工将被调到由 John Giannandrea 领导的机器学习和 AI 部门,转向生成式 AI 项目。至于苹果汽车团队里的数百名硬件工程师和车辆工程师,恐将面临裁员的情况。

对于苹果放弃造车计划的消息,最大的潜在对手马斯克也发了一个「致敬」、「点烟」的惬意表情包,并在另一条相关帖子下面评论道:汽车公司的本质趋势是走向衰亡。

更多具体信息欢迎回看 APPSO 以往的文章👇

苹果彻底放弃造车计划!2000 名员工当场惊呆,马斯克第一时间发声

苹果放弃造车后,雷军震惊,李想点赞,马斯克发了两个表情

苹果造车失败内幕曝光:错过收购特斯拉,Jony Ive设计了一辆没有方向盘的Apple Car

🔗 https://www.bloomberg.com/news/articles/2024-02-27/apple-cancels-work-on-electric-car-shifts-team-to-generative-ai?srnd=technology-vp

🤔 Google 交互世界模型重磅发布

Google DeepMind 团队近期推出了一款名为 Genie 的全新AI 模型。该模型拥有 110 亿个参数,是一个基础世界模型。

Genie 的特点是能够从一张图片、一张照片或一个草图中生成一个可交互的虚拟世界,并且这个世界的动作是可控的。

这个模型在超过 20 万小时的未标注互联网视频上进行训练,无需人工监督,能够自行识别视频中的动作特征和模式。

Genie 的核心组件包括潜动作模型、视频分词器和自回归动态模型,这些组件共同工作,使得 Genie 能够学习并模仿视频中的行为。这种学习方式不仅使得用户交互成为可能,而且还有助于训练智能体模仿看不见的视频中的行为。

英伟达高级科学家 Jim Fan 表示,「Sora 很好,但是 Genie 将会是具身智能体的主干之作」,「与 Sora 不同,Genie 实际上是一个由行动驱动的世界模型,具有推断行动的能力。2024 年也将是基础世界模型之年。」

🔗 https://twitter.com/_rockt/status/1762026090262872161

😍 首部 AI 长篇电影即将首映

3 月 6 日,一部完全由 AI 制作的长篇电影将会在洛杉矶 Landmark Nuart Theater 首映。

据悉, 这部名为《我们的终结者 2 重制版(Our T2 Remake)》的长篇电影,是由 50 位 AI 艺术家团队运用 Midjourney、Runway 等 AI 工具,完全原创制作而成。

与传统翻拍不同,该片以《终结者 2》为蓝本,构建了一个由 ChatGPT 统治的世界,深入探讨 AI 技术对现代社会的影响。

电影制作团队表示,这将是 AI 在电影制作应用中的一个重要里程碑……我们希望向世界展示,AI 赋予了每一个人创作自己的史诗级故事的能力。

🔗 https://www.t2remake.com/

❓Jukebox 会是 Sora 的秘密武器吗?

OpenAI Sora 的视觉效果已无需赘言,但演示视频却遗漏了一个关键元素——声音,缺少了音乐和音效的衬托,它们更像是一场无声的默剧。

而最近有网友发现,OpenAI 三年前就已经启动 AI 音乐生成项目,推出 Jukebox 模型。该模型能根据歌词、艺术家和风格生成多样化音乐和人声歌曲。

基于 120 万首歌曲的大规模数据集进行训练,Jukebox 还支持原始音频输出,可同步生成歌词与旋律,模仿特定风格和艺术家。

技术原理上,Jukebox 模型利用 VQ-VAE 技术压缩音频数据,保留关键音乐特征,并使用 Transformer 模型基于这些压缩数据生成新音乐。

Jukebox 还能根据条件信息如艺术家和风格生成音乐,并通过启发式方法和歌词对齐技术处理歌词与音频的对应关系。

项目地址:https://openai.com/research/jukebox

论文:https://cdn.openai.com/papers/jukebox.pdf

🔗 https://twitter.com/xiaohuggg/status/1763775026040590531

💰 英伟达升至全球市值第三

一片看好声中,英伟达的股价一路飙升,英伟达在本周五的股市交易中表现亮眼,股价大幅上涨 4%,最终收盘价定格在 822.79 美元。

英伟达的市值首次在盘后交易中达到 2.06 万亿美元的里程碑,正式成为全球市值排名第三的公司,仅次于微软和苹果。

自今年年初至今,英伟达的股价已经累计增长了 66%,且此前,投行 Loop Capital 分析师预计英伟达市值还有巨大的上涨空间。

🔗 https://www.google.com/finance/quote/NVDA:NASDAQ?sa=X&ved=2ahUKEwiO8ubE3NaEAxW3TWwGHbsMATAQ3ecFegQIQhAY&window=5D

Hunt for Tools|先进工具

🥊 暴打 Midjourney,Ideogram 用文字渲染弯道超车

近日,Ideogram宣布了其图像生成模型 Ideogram v1.0 的公开测试。

这款工具由前 Google Brain 的研究人员创立,专注于通过文本提示生成包含清晰、规范格式文本的图像,特别擅长生成包含文本内容的图像,如公司 LOGO。

Ideogram 提供了多种预设图像生成样式,包括排版、3D 渲染、电影、绘画等,用户可以通过简单的文本描述来生成具有特定风格的图像。

此外,Ideogram 还提供了「Remix」功能,允许用户基于已有图像进行再创作,提供了极大的灵活性和创造力发挥空间。

尽管 Ideogram 在图像质量上可能与 Midjourney 和 Stable Diffusion 等竞争对手存在差距,但其在文本生成方面的独特优势使其成为一个有潜力的 AI 绘画工具。

🔗 https://twitter.com/ideogram\_ai/status/1762881278955700270

👀 LTX Studio 让「手搓」电影不再是梦?

LTX Studio 是由以色列知名 AI 平台 Lightricks 开发的一款创新的 AI 视频制作平台。它利用 AI 技术,允许用户从概念到最终剪辑全面控制视频制作。

用户只需输入文本描述,LTX Studio 就能生成超过 25 秒的微电影视频,并提供深度帧控制、角色一致性保持、自动编辑等功能。

该平台的特点是一体化工作流,集成了视频制作的各个环节,包括角色创建、场景设置、镜头拍摄等。

目前,LTX Studio 处于免费内测阶段,并计划在 3 月 27 日正式开启公测。

🔗 https://ltx.studio/

👏 逼近 GPT-4,欧洲 AI 黑马发布新模型

本周,「欧洲版 OpenAI」Mistral AI 发布了其最新的旗舰级大模型——Mistral Large。

它在多项基准测试中的表现仅次于 GPT-4,成为全球第二大通过 API 公开可用的模型。Mistral Large 擅长处理复杂的多语言推理任务,如文本理解、转换和代码生成。

它具备 32K token 的上下文窗口,能够精确地从大型文档中提取信息,并且支持函数调用,这使得大规模应用程序的开发和技术栈现代化成为可能。

此外,Mistral AI 还发布了 Mistral Small,这是一个针对延迟和成本优化的模型,性能超越了 Mixtral 8x7B,提供了一个介于开放权重模型和旗舰模型之间的中间解决方案。

Mistral AI 与微软的合作也为其模型的推广和应用提供了新的平台。此外,上述模型均已集成到 Mistral AI 发布的 LeChat 聊天机器人。

体验地址入口:https://chat.mistral.ai/chat

🔗 https://mistral.ai/news/mistral-large/

🤖 第二代 Ameca 更像人了

近日,英国的 Engineered Arts 公司展示了全新升级的第二代 Ameca。

得益于视觉感知能力,演示视频中的 Ameca 能够描述周围环境并识别物体。此外,她还能捕捉并再现不同人物讲话的风格和语调,从埃隆·马斯克到海绵宝宝,Ameca 的模仿能力令人叹为观止。

🔗 https://www.youtube.com/watch?v=VXlpF3DrVP0

Hunt for Fun|先行

👍 Framer,强迫症设计师的福音

Framer 网站是一个灵感源自德国工业设计巨匠迪特·拉姆斯设计哲学的组件资源宝库。

这个网站由 @mrblackstudio 和 @karimeshrimp 联手打造,汇集了各式各样的 Framer 组件,旨在帮助设计师创造出既美观又实用的作品。

极简主义的设计和直观的用户界面,简直让强迫症狂喜

此外,网站还提供了一些互动功能,如「Remix」(混音),鼓励用户创建或混音自己的迪特·拉姆斯风格的 Framer 资源,并有机会被网站特别推荐。

体验地址入口:https://drams.framer.website/

Hunt for insights|先知

💥 英伟达 CEO 黄仁勋:5 年内 AI 或可通过人类测试

英伟达 CEO 黄仁勋近日在参加斯坦福经济政策研究所峰会时表示,他预计通用人工智能(AGI)最快将在五年内面世。

当被问及多长时间能实现 AGI 时,黄仁勋称,答案很大程度上取决于如何定义目标,如果对 AGI 的定义是通过人类测试的能力,那么这一目标五年内就能实现。

如果我让一个人工智能……进行你能想象到的任何测试,你可以列一个测试的清单并把它放在计算机科学行业面前,我猜在五年之内,我们就可以在每个测试上都做得很好。

但黄仁勋提到,(倘若)根据其他定义,要想实现更高要求的 AGI,可能仍然很难,因为科学家们在如何描述人类思维的工作方式上仍然存在分歧。「因此,作为一名工程师很难实现。」

在峰会上,黄仁勋也回应了 OpenAI CEO Altman 计划筹集巨额资金建立芯片制造网络的报道。他表示,虽然需要更多代工厂,但算法和AI处理能力的进步将改变计算效率,因此不能简单地基于当前水平来预测未来需求。

🔗 https://www.reuters.com/technology/nvidia-ceo-says-ai-could-pass-human-tests-five-years-2024-03-01/

🔨 ChatGPT 之父:AI 是一种工具,而不是「生物」

最近在接受 The Advocate 的采访时,OpenAI CEO Sam Altman 指出,人们常误以为 AI 是一种「生物」,而实际上它是一种「工具」。

他以 ChatGPT 为例,强调了 AI 作为工具的本质,并指出公众对 AI 的科幻式误解与实际使用者的经验大相径庭。

当被问及如何看待自己在技术史上的地位,以及作为革命者的角色,他表示所有的技术进步都是一场连续的革命,而不是孤立的事件。这些进步不是来自个人的头脑,而是社会集体智慧和合作的结果,这种集体智慧构建了超越个体的基础设施,从而让整个社会受益。

此外,在他看来,尽管学校在培训下一代 AI 和数字技术方面还有提升空间,但年轻人已在技术应用上展现出显著进步。他强调,学校教育的核心不在于传授特定技能或知识,而是培养学习新事物、保持好奇心和创新思维的能力。

🔗 https://www.advocate.com/news/sam-altman-openai-exclusive#toggle-gdpr

🔥 马斯克:人类正处于历史上最大的技术革命边缘

在 2 月 29 日举办的 BCW 活动中,特斯拉的 CEO 埃隆·马斯克通过远程对话分享了他对 AI 未来 5 至 10 年发展趋势的见解。

马斯克强调,AI 将深刻地重塑世界,尤其是在自动驾驶汽车领域。他提到,特斯拉在自动驾驶技术上的投入巨大,目前正处于实现完全自动驾驶的临界点。

在他看来,人类正处于历史上最大的技术革命边缘。他曾一度担忧人类是否会被 AI 取代,但后来他意识到,他希望亲眼见证 AI 时代的到来。

坦率地说,有一段时间我有点沮丧。我想,我们会被他们接管吗?我们会不会变得一无是处?但后来我想清楚了,我是否愿意活着看到人工智能的世界末日?我觉得我希望看到。

他强调,AI 的发展不会无限制地增长,它必然会遇到一些瓶颈。例如,一年前的瓶颈是芯片短缺,接下来可能是变压器,再然后是电力供应。「你得给这些东西提供能量。」

🔗 https://www.youtube.com/watch?v=6Qs94yF8AHY

彩蛋时间

向左滑动查看更多内容

作者:@ahha1963

工具:Midjourney

链接:https://twitter.com/ahha1963/status/1744208795474251933


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1