当前位置:首页|资讯|Midjourney|苹果|阿里巴巴|人工智能

Midjourney 进军硬件,曾被曝挖角苹果 Vision Pro 工程师 | Hunt Good 周报

作者:AppSo发布时间:2024-06-08

欢迎收看最新一期的 Hunt Good周报!

在本期内容你会看到:

6 条新鲜 资讯

4 个有用 工具

1 个有趣 案例

3 个鲜明 观点

Hunt for News|先进头条

😍 Midjourney 宣布进军硬件

本周,Midjourney 创始人 David Holz 在回复网友的帖子时宣称,Midjourney 目前已成立新的硬件团队。

早在今年 2 月份,有消息称,Midjourney 从苹果挖来 Vision Pro 工程师担任硬件主管。

当时,永远在吃瓜一线的英伟达科学家 Jim Fan 还推测,Midjourney 可能在考虑为 AR 和 VR 创建完全由计算生成的世界,这是基于他们在文本转换为 3D 模型方面的工作。

在 NVIDIA,数据驱动的模拟是一个备受关注的领域,这也正是我所热衷的。

祝贺 Vision Pro 项目的工程师们开启了新的征程!我非常期待看到 Midjourney 将会带来什么样的创新。

🔗 https://x.com/DavidSHolz/status/1795843078160536052?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-s-news-empire-grows

👀 a16z 发布最新 AI 语音 Agent 图谱

知名风险投资公司近日发布了一篇关于语音 Agents 的报告。

报告中提出,我们正在从 1.0 时代的 AI 语音(电话菜单系统)转向 2.0 时代的 AI 语音(基于大语言模型的系统)。

2.0 时代的公司在过去六个月内迅速崛起。虽然 1.0 时代的公司目前可能更为准确,但从长远来看,2.0 方法在可扩展性和准确性方面具有更大的潜力。

很难有一个通用的模型或平台能适用于所有类型的企业语音代理。不同垂直领域之间存在一些关键差异:(1)呼叫类型、语气和结构;(2)集成和流程;(3)市场策略(GTM)和「杀手级功能」。

🔗 https://a16z.com/ai-voice-agents/?continueFlag=20556f922fd216833c397232a811a38b

👏 OpenAI 宣布 GPT-4o 多模态能力向所有用户免费开放

OpenAI 在近日 X 平台宣布,GPT-4o 多模态能力向所有用户免费开放。不过,在使用次数上官方没有更新公告,预计还是会有一定次数限制。

上个月,OpenAI 举办发布会,带来了 GPT-4o 。该模型打通了文本、图片、视频和语音输入,无需中间转换,互相之间就可以直接生成。

当时,OpenAI 宣布向 ChatGPT Plus 和 Team 用户推出 GPT-4o,很快就会向企业用户推出。同时,也向所有人开放 GPT-4o 多模态能力,但有使用次数限制。

值得指出的是,由于免费用户获得了部分原本需要付费才能使用的功能,这也引起了一些付费用户的不满。

🔗 https://x.com/OpenAI/status/1795900306490044479

🩻 阿里 AI 亮相联合国,癌症筛查技术将全球推广

AI 正在开启一个全新的数字健康时代。

5 月 31 日,在联合国召开的 AI for Good 全球峰会上,阿里巴巴与世卫组织(WHO)数字健康合作中心达成战略合作,向全球推广达摩院 AI 癌症筛查技术。

在国内,达摩院AI癌症早筛技术已经为超过 600 万人次提供服务,覆盖胰腺癌、食管癌、肠癌、胃癌、肝肿瘤等病症的筛查,国际上已经与安提瓜和巴布达卫生部达成战略合作。

本次签约后,世卫组织数字健康国际合作中心将从渠道、市场、落地、技术、标准等方面提供支持。全球更多医疗资源不均衡的发展中国家和地区将共享这项前沿成果。

🔗 https://mp.weixin.qq.com/s/B2vl9o6etnXttT0fJFX4Sg

💰 xAI 获 60 亿美元融资,马斯克拟打造大型超算

近日,据 The Information 报道,马斯克在最新投资者演讲中透露,其 AI 初创公司 xAI 计划部署高达 10 万个定制芯片,以训练和运行下一代对话 AI 机器人 Grok。

马斯克将这些芯片集成至一台超级计算机,称之为「算力超级工厂」,其规模预计为现有最大 GPU 集群的 4 倍。他期望在 2025 年秋季前完成超级计算机的部署,并亲自监督项目进度。

在本周巴黎 VivaTech 大会上,马斯克表示 xAI 作为一家新兴公司,Grok 仍需不断进化,以期达到与 Google Deepmind 和 OpenAI 相竞争的水平,预计年底有望实现。

此外, xAI 本周宣布以超过 240 亿美元估值获得 60 亿美元 B 轮融资。至此,国外大模型在规模上形成包括 OpenAI、Google、Anthropic、Meta 和 xAI 等多巨头。

🔗 https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute

🎬 由 Sora 制作的短片将于电影节首映

据外媒 The Holleywood Reporter 报道, Tribeca Festival (翠贝卡电影节)将放映五部采用 OpenAI Sora 技术制作的短片。

这是 Sora 制作的电影首次在电影节上展示,影片将于 6 月 15 日放映,之后将与电影制作人进行对谈。

OpenAI 首席运营官 Brad Lightcap 表示,很高兴看到这些电影制作人如何利用 Sora 发挥他们的创造力,他们的作品能在翠贝卡电影节首映,OpenAI 感到非常荣幸。

我们期待他们的短片,同时也迫切想要知道如何让 Sora 成为所有创意人士更优秀的工具。

🔗 https://www.hollywoodreporter.com/business/business-news/tribeca-festival-short-films-made-openai-1235912280/

Hunt for Tools|先进工具

🎶 Suno 3.5 版本模型向所有人开放

Suno AI 音乐创作平台最新推出的 3.5 版本现已向所有用户开放。

现在,用户可以一次性生成完整的 4 分钟歌曲,只需提供基本的主题和选定偏好的音乐风格,Suno 便能够自动生成一首包含完整曲目。

对于希望创作更长曲目的用户,平台还支持将歌曲长度扩展至最多 2 分钟。 此外,Suno 对歌曲的整体架构和人声部分进行了进一步的优化,让作品更加和谐流畅。

🔗 https://x.com/suno\_ai\_/status/1796273804991156326

💥 腾讯推出 AI 助手App「腾讯元宝」

5 月 30 日,基于混元大模型的 App「腾讯元宝」正式上线,目前应用商店已经可以下载。

针对效率场景的三大核心需求:信息获取、处理和生产,腾讯元宝均进行了产品化探索。面向日常生活场景,元宝的玩法也更加丰富,提供了多个特色 AI 应用,并新增了创建个人智能体等玩法。

目前,腾讯内部有超 600 个业务及场景都已经接入腾讯混元,腾讯广告、微信读书、腾讯会议、腾讯文档、腾讯客服等,都已经基于混元实现了智能化升级。腾讯广泛的应用场景,也进一步反哺了大模型能力的提升。

更多具体信息,欢迎回看 APPSO 此前的体验文章 👇

体验完腾讯最新的 AI 应用「元宝」,我发现了其他 AI 助手都没有的一个惊喜功能

🔗 https://mp.weixin.qq.com/s/KCjb6oWV0DA-fCwKOZTHRA

🤯 Perplexity 推出 AI 版维基百科

本周,Perplexity AI 推出了一项创新功能「Pages」,它能够根据网页搜索结果自动编排成一份格式规范、内容丰富的文档。

Perplexity 宣称,其算法能够构建包含多个章节的详尽文章。用户可以要求 AI 工具对任何部分进行重写或重新排版,甚至可以删除它们。

并且,该功能还可以协助用户搜索并嵌入相关的多媒体素材,例如图片和视频。

创始人表示:「Perplexity 致力于满足全球的好奇心。我们借鉴了维基百科的模式,并增添了引用功能。我们激动地宣布,通过推出 Pages,我们正在将这一理念进一步发展,这可以被视为一种『AI 版的维基百科』。」

🔗 https://www.perplexity.ai/hub/faq/what-is-perplexity-pages

🎨 快手上线自研文生图大模型「可图」

近日,快手自研文生图大模型「可图」已于近日正式对外开放。

「可图」大模型目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过「可图」微信小程序和网页版使用。

据界面新闻援引知情人士消息,快手于去年年初组建了大模型研发团队,并依托其在 AIGC 算法和大规模语言模型方面的技术积累进行大模型开发和训练。

报道称,「可图」大模型的参数规模达十亿级,数据引入了强化学习和奖励模型技术(RLHF),解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。

🔗 https://mp.weixin.qq.com/s/viyCP2-aGgMyXGwYiEPsOQ

Hunt for Fun|先行

🎙️ ChatTTS 文本转语音项目爆火出圈

最近,一个名为 ChatTTS 文本转语音项目爆火出圈,引起了广泛关注。

ChatTTS 最大模型是基于超过 10 万小时的中英文数据训练而成的,目前仅支持中文和英文,其具备预测和控制语音的细微韵律特征的能力,包括笑声、停顿和插话等。

用户还可以对语音进行更细致的调整,例如调整语速、音调以及表达的情感等。

而在 HuggingFace 平台开源的版本则是基于 4 万小时训练数据,且未经过进一步的特定领域训练(SFT)。

附上体验地址:https://chattts.com/

🔗 https://github.com/2noise/ChatTTS

Hunt for insights|先知

🤖 Netflix CEO:抢你饭碗的不是 AI,而是熟练使用 AI 的人

网飞(Netflix)CEO Ted Sarandos 近日在接受《纽约时报》采访时表示,AI 不会抢走你的饭碗,但熟练掌握 AI 技能的人才会抢走你的饭碗。

在采访中,他巧妙地以家庭录像机的转变作为切入点,举例称:

还记得大家是如何对抗家庭录像机的吗?几十年来,电影制片厂都不愿意将电影授权给电视台播放,因此,娱乐业的每一次技术进步都会引发争论,但最终都会促进业务增长。我不知道这次是否有所不同。

25 年前,当我们开始邮寄 DVD 时,我们进入了一个转型期的行业。我们知道,实体媒体不会是未来。

我认为当今创意领域使用 AI 是水到渠成的事情。编剧、导演、剪辑师将把人工智能作为一种工具,更好地完成他们的工作,更高效地完成任务。

🔗 https://www.nytimes.com/2024/05/25/magazine/ted-sarandos-netflix-interview.html

💰 OpenAI CTO 称生成式 AI 带来的经济影响才刚刚开始

据彭博社报道,OpenAI 首席技术官 Mira Murati 表示,生成式 AI 的经济影响才刚刚开始。

Murati 通过视频在新加坡的 Asia Tech X 会议上指出,OpenAI 最新的 GPT-4o 模型可帮助用户生成文本、演示文稿和视频等内容,使用起来变得更加直观。

这使得人们越来越多地使用人工智能工具完成编码、写作和行政工作等任务。

她声称,「我们还没有完全意识到,这将对企业和工作产生的影响,因为它才刚刚开始。但我们可以看到的是,在很短的时间内,这些人工智能系统已经作为合作者进入了劳动力市场」。

🔗 https://www.bloomberg.com/news/articles/2024-05-30/openai-cto-says-generative-ai-s-economic-impact-only-starting

🧠 YC 创始人:Altman 当年不是被解雇的,他需要全职管理 OpenAI

针对网传 OpenAI CEO Sam Altman 此前被 YC 解雇的报道,YC 创始人 Paul Graham 本周在社交平台 X 上否认了这一说法。

Graham 说:「数年来,Altman 同时运营着 Y Combinator 和 OpenAI。但当 OpenAI 宣布将设立一个营利性子公司,Altman 将担任 CEO 时,我们就和他说,如果要全职管理 OpenAI,我们可能要寻找其他人来管理 Y Combinator,他也同意了。」

Graham还补充道:「如果他说他要找其他人来担任 OpenAI 的 CEO,这样他就可以 100% 专注于 Y Combinator,我们也不会介意。我们不想让他离开,没办法而已。」

🔗 https://x.com/paulg/status/1796107666265108940

彩蛋时间

《有根之木》

作者:@sunouku

工具:Midjourney

链接:https://x.com/sunouku/status/1794120242006036522


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1