欢迎收看最新一期的 Hunt Good周报!
在本期内容你会看到:
7 条新鲜 资讯
6 个有用 工具
1 个有趣 案例
4 个鲜明 观点
Hunt for News|先进头条
💰「AI 教母」李飞飞创业方向瞄准 「空间智能」
成功融资 2.3 亿美元后,「AI 教母」李飞飞正式官宣创办 AI 初创公司 ——World Labs。
李飞飞发文称,将与其他三位联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall,以及一支世界级图像技术团队共同创办实验室,致力于解决这个大自然花费五亿年才解决的超级难题。
据悉,World Labs 希望在明年推出首款构建能够理解 3D 世界并与之交互的 AI 模型产品,公司称其为「大世界模型」。
据称目标用户是艺术家、设计师、开发人员和工程师,以及游戏公司和电影公司。
对于空间智能的介绍,该公司官网上写道:
人类智能有许多方面,其中之一是语言智能,它使我们能够通过语言进行交流和与他人联系。但更为基础的或许是空间智能,它让我们能够理解和与周围世界互动。
空间智能还能帮助我们创造,将脑海中的画面带入现实世界...... 要超越当今模型的能力,我们需要具备空间智能的 AI,它能够在三维空间和时间中对世界进行建模,并对物体、场所和交互进行推理。
英伟达 AI 智能体项目负责人 Jim Fan 表示, 空间智能是计算机视觉和具身智能体的下一个前沿。
🔗 https://x.com/drfeifei/status/1834584286932181300
🧬 OpenAI 发布「o1」模型:具有人类般的推理能力
本周,OpenAI 发布了全新模型「o1」的预览版,以及更小、更便宜的「o1-mini」。
据介绍,o1 与 GPT-4o 的主要区别在于能够解决编程和数学等复杂问题,OpenAI 用一种新的「强化学习」的方式训练 o1 模型,使其能够实现人类般的逐步思考能力,花更多时间去解决问题。
模型会学习完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
OpenAI 使用国际奥林匹克数学资格考试对 o1 进行了测试,得分 83%,而 GPT-4o 得分 13%。不过,o1 目前不具备浏览网页或者处理文件和图像能力。
困扰 ChatGPT 和其他 AI 机器人的「Strawberry 有几个 r」问题, o1 能够正确回答,但依然未能解决「9.8 和 9.11 哪个大」的经典难题。
开发人员要调用 o1 API,输入 tokens 每一百万个价格 15 美元(折合人民币元 106.75 元),输出 tokens 每一百万个 60 美元(折合人民币约 427 元), 远高于 GPT-4o。
网友 @howie_serious 用 o1 模型做 2024 年高考数学卷, 除了证明题没有测试,其他题目均答对。
向左滑动查看更多内容
数学家陶哲轩表示, o1 模型的体验类似于指导一个水平一般但不算太无能的研究生。 「与之前的版本相比,o1 模型更强大,但在处理最复杂的数学研究任务时仍然表现不佳。」
还有网友 @real_kai42 尝试用 o1 模型解读起密文,「思考」76 秒后,最终得出正确答案,展现出强大的逻辑推理能力。
向左滑动查看更多内容
关于 OpenAI o1 的IQ 测试也安排上了。
向左滑动查看不同测试结果
还有网友用 OpenAI o1 模型在不到一分钟的时间内创建了一个 3D 版的贪吃蛇游戏。
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
据悉,在性能参数上,Unitree G1 拥有 127 厘米的身高和 35 公斤的体重,其移动速度可达每秒 2 米。
Unitree G1 的关节数量在 23 到 43 个之间,具有超大关节运动角度空间,起售价为 9.9 万元。
🔗 https://x.com/WXX\_A\_/status/1834198288813412812
🎮 米哈游 AI 大模型「Glossa」完成备案
上海市互联网信息办公室于 9 月 9 日发布「上海市生成式人工智能服务已备案信息公告」。
根据公告,上海市新增 7 款已完成备案的生成式人工智能服务,累计已完成 41 款生成式人工智能服务备案。
备案名单显示,米哈游旗下子公司 「上海米哈游秘法科技有限公司」的服务通过备案,模型名称为「Glossa」。
此前,米哈游创始人蔡浩宇曾在社交媒体上罕见发言,表示「AIGC 已经彻底改变了游戏开发」:
在未来,只有两类人在创造游戏方面才有意义。
一种是前 0.0001% 的人,一群最有洞察力的天才组成的精英团队,创造出前所未有的东西。
另一种是 99% 的业余爱好者,可以仅仅为了满足自己的想法而随心所欲去创造游戏。
🔗 https://mp.weixin.qq.com/s/DAPnNsiQo2DjkJvDUW78JA
Hunt for Tool|先进工具
✅「欧洲版 OpenAI」发布首个多模态模型
没有任何预告,法国 AI 初创 Mistral AI 发布了旗下首个多模态模型。
这款模型名为 Pixtral 12B,拥有 120 亿个参数,大小约为 24GB,基于 Mistral 的文本模型 Nemo 12B 构建。
它能够回答与给定 URL 或 base64 编码图像相关的任意数量、任意大小的图片问题。
从网上流传的多项基准测试结果来看, Pixtral 12B 的性能几乎全面碾压了 Phi-3 vision、Qwen2-VL 7B、Claude 3 Haiku、LLaVA-OV 7B。
Mistral 开发者关系主管 Sophia Yang 透露,Pixtral 12B 很快将在 Mistral 的聊天机器人 Le Chat 和 API 服务平台上提供测试。
附上 Le Chat 体验地址:
https://chat.mistral.ai/chat
🔗 https://mp.weixin.qq.com/s/QO0s3uKi0P78BioO7S74GQ
💬 Android 版 Gemini Live 免费上线
发布一个月后,对标 GPT-4o 的 Gemini Live 开始向 Android 上的免费用户推出。
该功能允许自然对话并能随时打断响应,可在后台运行。结束对话后,文本记录将会保存在历史聊天记录里。
这项功能支持流畅的自然对话, 用户可以随时打断讲话,而且可以在后台无缝运行。
Gemini Live 支持包括 Nova、Vega 在内的 10 种音色,暂不支持 Gemini 扩展访问 Gmail、YouTube Music 和其他应用程序,但该功能将在未来推出。
目前,Gemini Live 在设置为英语的 Android 设备上可用,未来将支持更多语言。
🔗 https://9to5google.com/2024/09/12/gemini-live-android-free-users/
📀 Adobe Firefly 视频模型测试版年底前推出
由生成式 AI 加强的 PR,教你一句话 P 视频。
Adobe 宣布将于今年年底前推出 Firefly 视频模型的测试版,届时用户可以在应用和独立网站上体验这一功能。
Adobe 在 2023 年 3 月首次推出了 Adobe Firefly,此后在成像、设计和矢量等方面进行了快速创新,其模型已用于 Creative Cloud 和 Express 中的一些热门功能。
官方宣称,该模型的设计考虑了创作者的权利,只在获得许可的内容上进行训练,编辑者可以放心使用。
Prompt: Cinematic closeup and detailed portrait of a reindeer in a snowy forest at sunset. The lighting is cinematic and gorgeous and soft and sun-kissed, with golden backlight and dreamy bokeh and lens flares. The color grade is cinematic and magical
据了解,Firefly 视频模型支持文本到视频功能,能够使用文本提示、相机控制和参考图像生成 B-Roll 来填补时间线中的空白。
Prompt: Slow-motion fiery volcanic landscape, with lava spewing out of craters. the camera flies through the lava and lava splatters onto the lens. The lighting is cinematic and moody. The color grade is cinematic, dramatic, and high-contrast.
此外,该模型还能够创建大气元素,如火焰和烟雾,以及 2D 和 3D 动画,并且可以将静态图像转换为生动的视频剪辑。
生成续帧功能则将于今年晚些时候在 Premiere Pro(测试版)中推出,支持可扩展剪辑以覆盖素材中的间隙、平滑过渡或延长镜头以实现完美编辑。
🔗 https://blog.adobe.com/en/publish/2024/09/11/bringing-gen-ai-to-video-adobe-firefly-video-model-coming-soon
👏 视频大模型 Vidu 上线「主体参照」新功能
视频抠图的苦,体会过的人都懂。
本周 Vidu 上新的「主体参照」的功能简直就是救命杀器:
支持真人、动物等不同类型的形象,多种画风,通过框选操作,明确主体部分不变,剩下的用 prompt 进行生成,就大功告成。
在媒体会上,生数科技 CEO 唐家渝表示,「作为一个技术厂商,要更多地走向创作者,走向行业,走向应用。」
体验指路👉🏻:www.vidu.studio
更多具体评测欢迎回看 APPSO 此前文章:
🔗 https://mp.weixin.qq.com/s/MzLPY6nURyLnwKmsPgRUtw
🤯 Gen-3 Alpha 功能再上新
本周,Runway Gen-3 Alpha 上线了 Video to Video 功能。
用户只需上传视频,并提供特定的提示词或选择预设样式,系统就能根据这些信息生成全新的视频内容。
官方表示,Video to Video 引入了一种全新的控制方式,能够让视频呈现更加精确的动作、出色的表现力,以及明确的创作意图。
该功能现已在网页端面向所有付费用户开放。
🔗 https://x.com/runwayml/status/1834711758335779300
📹 阿里通义即将发布 AI 视频生成模型:支持文本、图片生成
多家媒体报道称,阿里通义将在 2024 年云栖大会(9 月 19 日至 21 日)发布视频生成大模型,目前通义万相官网已上线「视频生成」入口,开放用户预约。
根据介绍,用户可以从通义万相 PC 端或 App,通过文字描述或图像控制生成视频:
输入文字控制画面内容与变化过程,配合提示词智能扩写功能
将图片作为视频首帧延续生成,生成更可控,画面更精准
特色功能方面,通义视频生成将支持运动生成、复杂语义理解和概念组合生成等能力。艺术风格方面,支持勾线动画、国漫 3D、毛毡动画、CG 厚涂、3D 动画等风格,以及国风画风和元素的呈现。
附上预约地址:
https://tongyi.aliyun.com/wanxiang/wanxvideo?autoReservation=true
Hunt for Fun|先行
😄 用 AI 鲁迅把国足、调休犀利吐槽了个遍
最近一段 Prompt 在网上火得一塌糊涂。
将 Prompt 输入 Claude Sonnet 模型之后,它就能将一个寻常词汇剖析得淋漓尽致。
辛辣犀利的文笔,一针见血的讽刺,活脱脱鲁迅林语堂的文风,骂人都不带一个脏字。
先来看看具体的效果。
谁都以为 02 年闯入世界杯是个起点,却没想到 20 多年前的那一幕,却是渐行渐远的巅峰。
「让亿万观众体验从希望到绝望的过山车」,AI 的点评实至名归。
对于调休,它精准地形容道:「把本该属于你的假期,变成一场精心编排的工作马拉松。」
非广,纯推荐,随机附上一些网页体验地址:
https://www.textcard.net/
https://vectorvein.com/public/v-app/6c1e679554204237ab732c32365aa6fc?key=8e5057b8757f43c3ab066db79e6fbbf8
具体体验欢迎回看 APPSO 此前文章:
Hunt for Insight | 先知
🧐 黄仁勋:AI 芯片热潮将持续,所有人都在指望英伟达
在近日的高盛 Communacopia 技术会议上,英伟达 CEO 黄仁勋发表了演讲,谈及对 AI 芯片未来发展的观点。
黄仁勋表示, AI 芯片正在成为科技界最热门的商品,有限的供应量引发了激烈的争夺。
再次谈及「摩尔定律」,黄仁勋认为随着传统 CPU 效率提升速度的减缓,该定律「已接近终结」,市场将会看到数据计算成本的飙升,而加速计算带来了巨大的成本节约。
黄仁勋也声称,虽然合作伙伴台积电在芯片代工方面具有巨大的优势,但是如果有必要,英伟达可以 「随时把订单转给其他供应商」。
黄仁勋强调,英伟达将在今年第四季度量产最新芯片 Blackwell 并扩大产能,明年继续扩产。
「我们肩上负有许多人的责任,每个人都指望着我们。」黄仁勋表示,「所以少睡点没关系,我们只需要三小时就够了」
🔗https://www.reddit.com/r/NvidiaStock/comments/1fev2u8/jensen_huang_speaking_at_goldman_sachs/
🤯 月之暗面创始人杨植麟:AI 时代的超级应用,大概率会是一个 AI 助理
昨日,月之暗面创始人杨植麟在天津大学宣怀学院分享了一些对 AI 行业发展的思考。
杨植麟认为,大模型的发展从集中在垂直领域的 AI 到通用智能的转变,是由互联网提供大量数据、计算技术的进步以及 Transformer 结构的提出共同推动的。
在他看来,OpenAI o1 模型通过强化学习试图突破数据墙,提高计算效率,并预测 AI 产品能力将更多依赖于模型能力而非互联网时代的产品逻辑。
杨植麟还提出了 AGI 的三层挑战,包括规模化定律、多模态整合与数据墙问题,以及推理能力的提升。
他强调, AI 时代的超级应用可能是一个 AI 助理,且 AI 的商业模型将随着智能成本的降低而更加可行。
🔗 https://mp.weixin.qq.com/s/ZYIHoSUoTH4wd3d5Z2zmeQ
📈 百度李彦宏:未来大模型之间的差距将拉大
界面新闻获悉百度 CEO 李彦宏的一次内部讲话内容,谈到了业界对于大模型的认识误区,涵盖大模型竞争、开源模型效率、智能体趋势等。
李彦宏认为,未来大模型之间的差距可能会越来越大,模型的天花板很高,现在距离理想情况还相差非常远,所以模型要不断快速迭代、更新和升级;需要能几年、十几年如一日地投入,不断满足用户需求,降本增效。
不同的模型之间差距不是越来越小,是会越来越大的,只是他们不知道真实需求的时候,只去做测试集的题可能会觉得差不多。
李彦宏指出,模型之间的差距是多维度的,一个维度是「能力」方面:理解能力、生成能力、逻辑推理能力、记忆能力等;另一个维度是「成本」方面:想具备这个能力或者想回答这些问题,付出的成本是多少。
他还强调,模型除了能力或效果之外还要看效率,从效率上看,开源模型是不行的。
并且他认为,智能体是大模型最重要的发展方向,但是到今天为止,智能体还不是共识。 「像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。」
🔋 Sam Altman:未来的两大基础性资源将是智能和能源
近日,OpenAI 创始人 Sam Altman 回到母校圣路易斯市的约翰・伯勒斯学校演讲并接受采访。
针对近期发布的 OpenAI o1 模型,Altman 表示它可能改变编程的本质,使程序员更高效地完成复杂任务,还可能助力科学研究,比如有望加快疾病治疗研究和新材料发现。
Altman 指出既然每周八小时工作制难以实现,不如用 AI 改变工作本质,让未来工作更像爱好、艺术或自我表达。
当谈及验证 AI 内容真实性的保障措施时, Altman 表示可在水印技术和工具生成的内容上采取措施,但不执行保障措施的服务生成的内容会很普遍。
类似于「免疫系统」,他希望世界能像 Photoshop 刚出现时那样,人们不再完全相信网上内容,而是更加怀疑和谨慎。
此外,在他看来,AI 的发展不仅没有放缓,而且对未来几年「胜券在握」。 他提到,未来的两大基础性资源将是智能和能源,智能创造思想完成智力任务,能源让任务在现实世界中实现。
🔗 https://www.stlpr.org/show/st-louis-on-the-air/2024-09-13/sam-altman-chatgpt-openai-o1-st-louis
彩蛋时间
🍚《食侠》
作者:@kooods
工具:Midjourney v6.1
Prompt:Iron Man, in the rain, cooking on the streets of China
链接:https://www.midjourney.com/jobs/02a7bf0a-e45e-4448-9ae6-d41613d7b2b6?index=0