欢迎收看最新一期的 Hunt Good周报!
在本期内容你会看到:
6 条新鲜 资讯
4 个有用 工具
1 个有趣 案例
3 个鲜明 观点
Hunt for News|先进头条
😍 Midjourney 宣布进军硬件
本周,Midjourney 创始人 David Holz 在回复网友的帖子时宣称,Midjourney 目前已成立新的硬件团队。
早在今年 2 月份,有消息称,Midjourney 从苹果挖来 Vision Pro 工程师担任硬件主管。
当时,永远在吃瓜一线的英伟达科学家 Jim Fan 还推测,Midjourney 可能在考虑为 AR 和 VR 创建完全由计算生成的世界,这是基于他们在文本转换为 3D 模型方面的工作。
在 NVIDIA,数据驱动的模拟是一个备受关注的领域,这也正是我所热衷的。
祝贺 Vision Pro 项目的工程师们开启了新的征程!我非常期待看到 Midjourney 将会带来什么样的创新。
🔗 https://x.com/DavidSHolz/status/1795843078160536052?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-s-news-empire-grows
👀 a16z 发布最新 AI 语音 Agent 图谱
知名风险投资公司近日发布了一篇关于语音 Agents 的报告。
报告中提出,我们正在从 1.0 时代的 AI 语音(电话菜单系统)转向 2.0 时代的 AI 语音(基于大语言模型的系统)。
2.0 时代的公司在过去六个月内迅速崛起。虽然 1.0 时代的公司目前可能更为准确,但从长远来看,2.0 方法在可扩展性和准确性方面具有更大的潜力。
很难有一个通用的模型或平台能适用于所有类型的企业语音代理。不同垂直领域之间存在一些关键差异:(1)呼叫类型、语气和结构;(2)集成和流程;(3)市场策略(GTM)和「杀手级功能」。
🔗 https://a16z.com/ai-voice-agents/?continueFlag=20556f922fd216833c397232a811a38b
👏 OpenAI 宣布 GPT-4o 多模态能力向所有用户免费开放
OpenAI 在近日 X 平台宣布,GPT-4o 多模态能力向所有用户免费开放。不过,在使用次数上官方没有更新公告,预计还是会有一定次数限制。
上个月,OpenAI 举办发布会,带来了 GPT-4o 。该模型打通了文本、图片、视频和语音输入,无需中间转换,互相之间就可以直接生成。
当时,OpenAI 宣布向 ChatGPT Plus 和 Team 用户推出 GPT-4o,很快就会向企业用户推出。同时,也向所有人开放 GPT-4o 多模态能力,但有使用次数限制。
值得指出的是,由于免费用户获得了部分原本需要付费才能使用的功能,这也引起了一些付费用户的不满。
🔗 https://x.com/OpenAI/status/1795900306490044479
🩻 阿里 AI 亮相联合国,癌症筛查技术将全球推广
AI 正在开启一个全新的数字健康时代。
5 月 31 日,在联合国召开的 AI for Good 全球峰会上,阿里巴巴与世卫组织(WHO)数字健康合作中心达成战略合作,向全球推广达摩院 AI 癌症筛查技术。
在国内,达摩院AI癌症早筛技术已经为超过 600 万人次提供服务,覆盖胰腺癌、食管癌、肠癌、胃癌、肝肿瘤等病症的筛查,国际上已经与安提瓜和巴布达卫生部达成战略合作。
本次签约后,世卫组织数字健康国际合作中心将从渠道、市场、落地、技术、标准等方面提供支持。全球更多医疗资源不均衡的发展中国家和地区将共享这项前沿成果。
🔗 https://mp.weixin.qq.com/s/B2vl9o6etnXttT0fJFX4Sg
💰 xAI 获 60 亿美元融资,马斯克拟打造大型超算
近日,据 The Information 报道,马斯克在最新投资者演讲中透露,其 AI 初创公司 xAI 计划部署高达 10 万个定制芯片,以训练和运行下一代对话 AI 机器人 Grok。
马斯克将这些芯片集成至一台超级计算机,称之为「算力超级工厂」,其规模预计为现有最大 GPU 集群的 4 倍。他期望在 2025 年秋季前完成超级计算机的部署,并亲自监督项目进度。
在本周巴黎 VivaTech 大会上,马斯克表示 xAI 作为一家新兴公司,Grok 仍需不断进化,以期达到与 Google Deepmind 和 OpenAI 相竞争的水平,预计年底有望实现。
此外, xAI 本周宣布以超过 240 亿美元估值获得 60 亿美元 B 轮融资。至此,国外大模型在规模上形成包括 OpenAI、Google、Anthropic、Meta 和 xAI 等多巨头。
🔗 https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute
🎬 由 Sora 制作的短片将于电影节首映
据外媒 The Holleywood Reporter 报道, Tribeca Festival (翠贝卡电影节)将放映五部采用 OpenAI Sora 技术制作的短片。
这是 Sora 制作的电影首次在电影节上展示,影片将于 6 月 15 日放映,之后将与电影制作人进行对谈。
OpenAI 首席运营官 Brad Lightcap 表示,很高兴看到这些电影制作人如何利用 Sora 发挥他们的创造力,他们的作品能在翠贝卡电影节首映,OpenAI 感到非常荣幸。
我们期待他们的短片,同时也迫切想要知道如何让 Sora 成为所有创意人士更优秀的工具。
🔗 https://www.hollywoodreporter.com/business/business-news/tribeca-festival-short-films-made-openai-1235912280/
Hunt for Tools|先进工具
🎶 Suno 3.5 版本模型向所有人开放
Suno AI 音乐创作平台最新推出的 3.5 版本现已向所有用户开放。
现在,用户可以一次性生成完整的 4 分钟歌曲,只需提供基本的主题和选定偏好的音乐风格,Suno 便能够自动生成一首包含完整曲目。
对于希望创作更长曲目的用户,平台还支持将歌曲长度扩展至最多 2 分钟。 此外,Suno 对歌曲的整体架构和人声部分进行了进一步的优化,让作品更加和谐流畅。
🔗 https://x.com/suno\_ai\_/status/1796273804991156326
💥 腾讯推出 AI 助手App「腾讯元宝」
5 月 30 日,基于混元大模型的 App「腾讯元宝」正式上线,目前应用商店已经可以下载。
针对效率场景的三大核心需求:信息获取、处理和生产,腾讯元宝均进行了产品化探索。面向日常生活场景,元宝的玩法也更加丰富,提供了多个特色 AI 应用,并新增了创建个人智能体等玩法。
目前,腾讯内部有超 600 个业务及场景都已经接入腾讯混元,腾讯广告、微信读书、腾讯会议、腾讯文档、腾讯客服等,都已经基于混元实现了智能化升级。腾讯广泛的应用场景,也进一步反哺了大模型能力的提升。
更多具体信息,欢迎回看 APPSO 此前的体验文章 👇
体验完腾讯最新的 AI 应用「元宝」,我发现了其他 AI 助手都没有的一个惊喜功能
🔗 https://mp.weixin.qq.com/s/KCjb6oWV0DA-fCwKOZTHRA
🤯 Perplexity 推出 AI 版维基百科
本周,Perplexity AI 推出了一项创新功能「Pages」,它能够根据网页搜索结果自动编排成一份格式规范、内容丰富的文档。
Perplexity 宣称,其算法能够构建包含多个章节的详尽文章。用户可以要求 AI 工具对任何部分进行重写或重新排版,甚至可以删除它们。
并且,该功能还可以协助用户搜索并嵌入相关的多媒体素材,例如图片和视频。
创始人表示:「Perplexity 致力于满足全球的好奇心。我们借鉴了维基百科的模式,并增添了引用功能。我们激动地宣布,通过推出 Pages,我们正在将这一理念进一步发展,这可以被视为一种『AI 版的维基百科』。」
🔗 https://www.perplexity.ai/hub/faq/what-is-perplexity-pages
🎨 快手上线自研文生图大模型「可图」
近日,快手自研文生图大模型「可图」已于近日正式对外开放。
「可图」大模型目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过「可图」微信小程序和网页版使用。
据界面新闻援引知情人士消息,快手于去年年初组建了大模型研发团队,并依托其在 AIGC 算法和大规模语言模型方面的技术积累进行大模型开发和训练。
报道称,「可图」大模型的参数规模达十亿级,数据引入了强化学习和奖励模型技术(RLHF),解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。
🔗 https://mp.weixin.qq.com/s/viyCP2-aGgMyXGwYiEPsOQ
Hunt for Fun|先行
🎙️ ChatTTS 文本转语音项目爆火出圈
最近,一个名为 ChatTTS 文本转语音项目爆火出圈,引起了广泛关注。
ChatTTS 最大模型是基于超过 10 万小时的中英文数据训练而成的,目前仅支持中文和英文,其具备预测和控制语音的细微韵律特征的能力,包括笑声、停顿和插话等。
用户还可以对语音进行更细致的调整,例如调整语速、音调以及表达的情感等。
而在 HuggingFace 平台开源的版本则是基于 4 万小时训练数据,且未经过进一步的特定领域训练(SFT)。
附上体验地址:https://chattts.com/
🔗 https://github.com/2noise/ChatTTS
Hunt for insights|先知
🤖 Netflix CEO:抢你饭碗的不是 AI,而是熟练使用 AI 的人
网飞(Netflix)CEO Ted Sarandos 近日在接受《纽约时报》采访时表示,AI 不会抢走你的饭碗,但熟练掌握 AI 技能的人才会抢走你的饭碗。
在采访中,他巧妙地以家庭录像机的转变作为切入点,举例称:
还记得大家是如何对抗家庭录像机的吗?几十年来,电影制片厂都不愿意将电影授权给电视台播放,因此,娱乐业的每一次技术进步都会引发争论,但最终都会促进业务增长。我不知道这次是否有所不同。
25 年前,当我们开始邮寄 DVD 时,我们进入了一个转型期的行业。我们知道,实体媒体不会是未来。
我认为当今创意领域使用 AI 是水到渠成的事情。编剧、导演、剪辑师将把人工智能作为一种工具,更好地完成他们的工作,更高效地完成任务。
🔗 https://www.nytimes.com/2024/05/25/magazine/ted-sarandos-netflix-interview.html
💰 OpenAI CTO 称生成式 AI 带来的经济影响才刚刚开始
据彭博社报道,OpenAI 首席技术官 Mira Murati 表示,生成式 AI 的经济影响才刚刚开始。
Murati 通过视频在新加坡的 Asia Tech X 会议上指出,OpenAI 最新的 GPT-4o 模型可帮助用户生成文本、演示文稿和视频等内容,使用起来变得更加直观。
这使得人们越来越多地使用人工智能工具完成编码、写作和行政工作等任务。
她声称,「我们还没有完全意识到,这将对企业和工作产生的影响,因为它才刚刚开始。但我们可以看到的是,在很短的时间内,这些人工智能系统已经作为合作者进入了劳动力市场」。
🔗 https://www.bloomberg.com/news/articles/2024-05-30/openai-cto-says-generative-ai-s-economic-impact-only-starting
🧠 YC 创始人:Altman 当年不是被解雇的,他需要全职管理 OpenAI
针对网传 OpenAI CEO Sam Altman 此前被 YC 解雇的报道,YC 创始人 Paul Graham 本周在社交平台 X 上否认了这一说法。
Graham 说:「数年来,Altman 同时运营着 Y Combinator 和 OpenAI。但当 OpenAI 宣布将设立一个营利性子公司,Altman 将担任 CEO 时,我们就和他说,如果要全职管理 OpenAI,我们可能要寻找其他人来管理 Y Combinator,他也同意了。」
Graham还补充道:「如果他说他要找其他人来担任 OpenAI 的 CEO,这样他就可以 100% 专注于 Y Combinator,我们也不会介意。我们不想让他离开,没办法而已。」
🔗 https://x.com/paulg/status/1796107666265108940
彩蛋时间
《有根之木》
作者:@sunouku
工具:Midjourney
链接:https://x.com/sunouku/status/1794120242006036522