当前位置:首页|资讯|腾讯|OpenAI|ChatGPT

腾讯研究院AI速递 20241213

作者:腾讯研究院发布时间:2024-12-19

生成式AI

一、 苹果首款 AI 服务器芯片 Baltra,最新工艺预计 2026 年量产

1. 苹果正在开发代号为Baltra的AI芯片,计划2026年量产,专为AI任务加速;

2. 该芯片采用模块化设计和N3P工艺,目标提高性能和降低复杂性,预计与NVIDIA和OpenAI的芯片竞争;

3. 苹果将通过博通提供设计服务,并依赖台积电制造,计划明年推出采用N3P工艺的iPhone芯片。

二、 抢跑OpenAI!谷歌Gemini 2.0:全面转向Agent,多模态

1. 谷歌发布Gemini 2.0 Flash,具备原生多模态输入输出、Agent功能,性能比1.5 Pro快两倍;

2. 新功能包括空间理解、视频理解、实时音视频流输入、原生工具调用,并支持自定义第三方函数;

3. Gemini 2.0支持AI代理应用,如编程助手Jules、数据分析代理、智能助手Project Astra等,且免费开放API。

三、 OpenAI Day5:iPhone、iPad、Mac可原生使用ChatGPT

1. 苹果设备(iPhone、iPad、Mac、Siri)将原生接入ChatGPT,提供深度整合的AI功能;

3. Siri与ChatGPT协同工作,提升理解、生成与执行能力,为用户提供更精准的智能助手体验。

四、 Midjourney打开新世界:Patchwork,无限画布使用指南

1. Midjourney推出Patchwork无限画布,用户可创建虚拟世界并与他人协作;

2. 通过工具箱生成故事实体、绘制图像并链接内容,支持AI生成和细节扩展;

五、 Sora后,苹果发布视频模型STIV,87亿参数一统T2V、TI2V

1. 苹果发布了87亿参数的STIV模型,统一处理T2V和TI2V任务,提升视频生成质量;

2. 采用时空注意力分解、图像条件随机丢弃等创新,优化训练稳定性与效率;

3. STIV模型可扩展至视频预测、帧插值、长视频生成等任务,对标现有领先模型。

六、 打破语言障碍,不仅是字幕,YouTube 支持 AI 自动配音

1. YouTube推出AI自动配音功能,帮助创作者生成翻译音轨,支持多种语言;

2. 功能目前面向教学类内容频道,未来将扩展到更多类型的视频;

3. 该技术基于Google Gemini,仍处于开发阶段,可能存在翻译误差或配音不精确的问题。

七、 谷歌预告AI智能眼镜,开启预约测试,集成最新Gemini 2

1. 谷歌宣布Project Astra原型智能眼镜开放预约测试,集成最新Gemini 2.0,主打AI智能体与多模态功能;

2. Astra支持多语言、记忆功能及上下文理解,能通过镜头、地图和搜索获取实时信息;

3. 用户可通过Android应用体验Astra,智能眼镜与AI助手无缝集成,提供更沉浸式体验。

前沿科技

八、 Nvidia、AMD、Intel罕见联手,投资一家光芯片初创公司

1. Ayar Labs获得英伟达、AMD、英特尔等巨头投资,估值超10亿美元,成为AI芯片独角兽;

2. 公司专注于光互连技术,解决传统铜互连在AI数据中心中的性能瓶颈,提供更高带宽、更低能耗和延迟;

3. Ayar Labs与光互连竞争者如Lightium、Lightmatter等共同推动AI基础设施革新,未来目标是大规模生产和出货。

报告观点

九、 赫拉利、李开复深度对谈:当AI比人更聪明,我们还剩什么?

1. 人工智能的发展迫使我们重新思考人性的本质,尤其是意识和感情的重要性;

2. 人工智能在信息处理和决策方面的自主性可能导致对人类社会结构和职业的根本性改变;

3. 需要全球性的对话和合作来监管人工智能的发展,确保其正面潜力得到发挥,同时避免潜在的负面影响。

十、 semianalysis分析师:Claude 3.5超大杯内部自留用于训练

1. Claude 3.5 Opus未失败,而是用于内部数据合成和强化学习奖励建模;

2. 该模型的作用是通过合成数据提升Claude 3.5 Sonnet的性能,未公开发布因为用于内部训练更具价值;

3. 大型AI实验室依然坚持Scaling Law,但AI开发依赖新范式,包括合成数据、强化学习与搜索推理等技术。


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1