武汉大学首个人形机器人亮相！

作者：啥都会一点的研究生发布时间：2024-09-24

AI圈又发生了哪些新鲜事？

武汉大学展示首个人形机器人“天问”：1.7米高，65公斤重，36个自由度

武汉大学近日展示了其首个人形机器人“天问”，该机器人身高1.7米，体重65公斤，拥有36个自由度，包括7个自由度的灵巧手。项目自今年3月启动，经过数月调试，已能熟练执行走、跑、跳等动作。“天问”的命名灵感来自《楚辞》中的名篇《天问》，体现了武汉大学对传统文化的尊重和创新精神的结合

https://www.hubei.gov.cn/hbfb/rdgz/202409/t20240912_5334273.shtml

中科院发布全球首个多模态地理科学大模型“坤元”

中国科学院多个研究所联合发布了全球首个多模态地理科学大模型“坤元”，该模型专注于地理科学领域，具备解答地理专业问题、智能分析文献、查询数据资源、数据挖掘分析和绘制专题地图等多项功能。模型的研发团队构建了地理学全谱系的高质量语料库，并研发了地理科学研究智导平台，使“坤元”在地理科学领域具有显著的专业处理能力

https://www.ithome.com/0/796/748.htm

阿里云通义万相视觉生成模型升级，新增视频创作功能

阿里云在2024云栖大会上宣布，通义万相视觉生成大模型迎来新升级，新增文生视频、图生视频等功能。该模型累计创作图片数超过7500万张，用户数达到93万。新模型强化了概念理解与组合生成能力，优化了中式元素表现，并支持多语言及可变分辨率生成

https://tongyi.aliyun.com/wanxiang/wanxvideo

阿里云发布新一代开源模型Qwen2.5，性能超越Llama 405B

在2024云栖大会上，阿里云CTO周靖人宣布推出通义千问新一代开源模型Qwen2.5，其中旗舰模型Qwen2.5-72B性能超越Llama 405B。Qwen2.5系列包括多个尺寸的语言模型、多模态模型、数学模型和代码模型，共上架100多个模型。所有开源模型除3B和72B版本外，均采用Apache 2.0许可证。截至2024年9月中旬，通义千问开源模型累计下载量已突破4000万，成为世界级模型群之一。阿里云还宣布通义千问推荐模型全线降价，最高降幅可达85%

https://www.ithome.com/0/796/810.htm

元象发布中国最大开源MoE模型：255B参数，训练时间减少30%，推理性能提升100%

元象XVERSE推出了中国最大的MoE开源模型XVERSE-MoE-A36B，拥有255B参数，实现了100B模型性能的显著提升。该模型在训练时间上减少了30%，推理性能提升了100%，大幅降低了每token成本。在多个权威评测中，元象MoE模型效果超越了包括Skywork-MoE、Mixtral-8x22B以及Grok-1-A86B在内的多个同类模型。此外，元象的“高性能全家桶”系列全部开源，无条件免费商用，为中小企业、研究者和开发者提供了灵活的选择

https://www.qbitai.com/2024/09/191087.html

高通或将收购英特尔：芯片行业迎来巨变

高通对英特尔提出收购要约，若成功，这将是芯片行业历史上的重大事件。高通市值约1882亿美元，而英特尔市值约为934亿美元。英特尔近期面临挑战，股价下跌25%，二季度亏损达16亿美元。收购可能涉及反垄断审查，且英特尔可能被从道琼斯工业平均指数中剔除。英特尔已与亚马逊签约，为其提供定制人工智能芯片

https://mp.weixin.qq.com/s/JacD2tsb9Vz7L4uB80H3qA

开源版《Her》Moshi模型技术报告和代码公开

法国创业团队Kyutai开发的端到端实时音频模型Moshi近日公开了技术报告和代码。Moshi拥有7.69B参数，能在MacBook上运行，L4 GPU上实现约200毫秒延迟。团队还发布了Moshiko、Moshika变体及Mimi流语音编解码器，支持24 kHz音频处理。此外，Moshi项目采用Helium语言模型、Mimi编解码器和多流架构，通过多流建模技术实现全双工对话动态模拟

https://www.qbitai.com/2024/09/192342.html

YouTube 引入 AI 工具革新视频创作流程

谷歌在“Made on YouTube”活动中宣布，将为 YouTube 创作者中心加入 AI 驱动的“灵感”选项卡，提供视频概念推荐、标题和缩略图设计，甚至视频大纲编写。此外，YouTube 还推出了 Veo 工具，利用 AI 技术生成视频背景和最长 6 秒的视频片段。这些功能预计将在今年年底或明年年初推出，旨在简化视频制作流程并拓宽创作者的创作视野

https://www.ithome.com/0/796/677.htm

李飞飞创业公司正式官宣，又完成2.3亿美元融资，聚焦空间智能AI技术

李飞飞领衔的World Labs近日宣布完成2.3亿美元融资，投资方阵容强大。公司致力于构建“大世界模型”（LWM），旨在通过空间智能AI技术感知、生成并交互3D世界。World Labs汇集了CV和图形学领域的顶尖人才，目标是打造能够理解并操作3D世界的AI，推动AI从2D图像处理向3D空间智能的跨越

https://mp.weixin.qq.com/s/yKMiP3nstC_S1kAIKSJp-Q

AI一键生成“类黑神话”，腾讯推出游戏视频模型GameGen-O

腾讯近日推出了名为GameGen-O的AI模型，专门用于生成开放世界视频游戏内容。该模型能够模拟游戏引擎功能，生成游戏角色、动态环境、复杂动作，并支持交互控制。通过构建专有数据集OGameData，并采用GPT-4o进行数据标注，GameGen-O在基础预训练和指令调整两个阶段进行训练，以实现高质量视频游戏内容的生成和交互控制。目前，GameGen-O已创建GitHub官方仓库，项目主页和代码库均已开放

https://github.com/GameGen-O/GameGen-O/

陶哲轩实测OpenAI o1：AI能力接近研究生水平

数学家陶哲轩提前体验了OpenAI的o1模型，并对其能力进行了测试。在一系列挑战中，o1展现出了对复杂数学问题的理解和解答能力，其表现被陶哲轩比喻为“平庸无奇但又有点小能力的研究生”。尽管在某些情况下仍会犯错误，但o1在提示词的帮助下能够提供正确的解决方案。陶哲轩认为，随着技术的进步，未来几年内，大模型在数学研究中的实用性将显著提升，其辅助能力可能与研究生相当