AI视野：腾讯发布音乐生成模型M2UGen；米老鼠SD模型上线；

作者：站长之家发布时间：2024-01-03

腾讯 Stable Diffusion

新鲜AI产品点击了解：https://top.aibase.com/

🤖📈💻💡大模型动态

腾讯发布多模态音乐生成模型M2UGen

腾讯推出的M2UGen是一款多模态音乐生成框架，结合音乐和多模态任务，支持从文字、图像、视频生成音乐，并具备强大的编辑功能。

体验地址:https://top.aibase.com/tool/m2ugen

【AiBase提要:】

🎵 M2UGen融合音乐理解和多模态任务，支持文字、图像、视频生成音乐。

🖼️ 利用编码器和模型进行音乐和图像理解，用户可编辑音乐、调整乐器和速度。

🚀 采用创新方法生成大规模音乐指导数据集，展示出色的音乐生成和编辑能力。

米老鼠SD模型上线

迪士尼旧版米老鼠版权过期，AI开发者推出基于Stable-Diffusion-xl的Mickey-1928SD模型，用于生成符合1928年设计风格的米老鼠、米妮和皮特的图像。

模型下载地址:https://top.aibase.com/tool/mickey-1928

【AiBase提要:】

🐭 Mickey-1928SD模型基于Stable-Diffusion-xl微调，使用1928年公共领域画面训练。

🎨 模型可生成符合1928年风格的米老鼠形象，任何人可自由使用。

🚀 模型作者为@Dorialexander，下载地址及在线体验链接已公开。

Midjourney将推文本转视频模型

Midjourney公司计划在未来几个月推出“文本转视频”模型，通过在1月开始培训视频模型，强调其自然发展和在生成视频领域引入竞争动态，同时V6更新提升画质和用户体验。

【AiBase提要:】

🎥 Midjourney计划推出“文本转视频”模型，扩展AI形象生成器到视频创作领域。

🤖 公司将在1月培训视频模型，CEO表示是平台的自然发展，引入生成视频行业竞争动态。

🌐 MidJourney的最新v6更新专注于提高画质和用户体验，预示着AI视频生成领域的激烈竞争。

同花顺推出问财大模型HithinkGPT

同花顺问财发布HithinkGPT大模型，采用transformer的decoder-only架构，通过科学高效的训练体系和大规模金融语料预训练，成为国内金融领域首个应用大模型技术的智能投顾产品。

【AiBase提要:】

🚀 技术规格: HithinkGPT提供7B、13B、30B、70B和130B五种版本选择，最大允许32k文本输入，支持API接口调用、网页嵌入、共建等能力。

📈 金融应用: 在金融领域，模型通过多个金融考试，得分平均达到75.9分，涵盖A股、基金、ETF等15个业务矩阵，为用户提供全面精准、稳定可控的投资决策支持。

🔗 内测申请: 用户可申请内测体验HithinkGPT，成为国内金融行业首个成功应用大模型技术的智能投顾产品。

摩根大通推出多模态文档理解模型DocLLM

摩根大通发布了DocLLM，一款专为多模态文档理解设计的生成式语言模型，通过轻量级扩展LLM，避免昂贵的图像编码器，以提高文档分析效能。

论文地址:https://arxiv.org/pdf/2401.00908.pdf

【AiBase提要:】

🚀 创新设计: DocLLM采用分离的空间注意机制，专注于边界框信息，解决文本和空间模态交汇处的复杂语义问题。

📊 广泛评估表现: 在16个已知数据集中，DocLLM在多种文档智能任务中表现优越，对未见数据集具有强大泛化能力。

🔗 未来增强承诺: 摩根大通承诺以轻量级方式将视觉融入DocLLM，进一步提升其多模态文档理解能力。

🤖📱💼AI应用

MidReal AI更新Beta版本

MidReal AI最新Beta版本更新，提升小说生成模型逻辑和连贯性，官网推出小说展厅，新增私密内容功能，提供更好体验。

体验地址:discord.gg/GUSTKcEJ7a

官网地址:https://top.aibase.com/tool/midreal-ai

【AiBase提要:】

🔄 模型更新:MidReal AI Beta版本增强逻辑和连贯性，提升用户小说生成体验。

📚 小说展厅:官网推出小说展厅，用户可舒适浏览推荐小说，比Discord阅读更便捷。

🔒 私密功能:新增“/start_private”命令，用户可创建完全私密内容，避免社交尴尬。

谷歌即将推出Bard Assistant

谷歌即将发布与Bard合作的增强助理，最新应用程序更新展示新设计，包括弹出窗口和标签切换器，同时对股票和金融小部件进行调整。

【AiBase提要:】

🚀 谷歌计划推出与Bard合作的Assistant，应用程序更新包括新设计和用户体验提升。

📊 股票和金融小部件经过调整，强调清晰的视觉效果，显示特定股票的价格和趋势。

🌐 Bard Assistant将放置在Google搜索应用程序的“发现”页面上，提供用户在搜索和获取AI帮助之间快速切换的便捷方式。

AI视频翻译配音工具

一款解决短视频副业项目中字幕翻译问题的工具，提供语音生成字幕、多种配音角色选择和多种翻译引擎支持，轻松完成视频翻译和配音任务。

体验地址:https://top.aibase.com/tool/shipinfanyipeiyin

【AiBase提要】

🎙️ 支持语音自动生成字幕，用户可灵活编辑确保最佳翻译效果。

👥 提供多种配音角色选择，包括支持openai的TTS模型。

🌐 集成多种翻译引擎，如Google、ChatGPT、DeepL，确保用户选择最佳引擎。

📰🤖📢AI新鲜事

ChatGPT文明模拟器再上线

通过GPT-4和DELL-3的结合，使用ChatGPT模拟庞贝古城火山爆发时的历史情景，并展示了多模态人工智能的强大功能。

项目地址:https://docs.google.com/document/d/1irisz6f1G4oYaKojqwuU9rSDBV1-VaCh0VkeuIX0sfs/edit?pli=1

【AiBase提要:】

🔄 GPT-4与DELL-3协同，模拟历史中庞贝古城火山爆发情景，提供沉浸式体验。

🖼️ 多模态人工智能的兴起，使历史模拟更加生动，通过图像与文本交互生成历史场景。

🌐 教授使用GPT-4和DELL-3进行多模态历史模拟，通过互动方式改变历史走向，丰富了历史教学。

钉钉发布AIGC应用层十大趋势

《2024AIGC应用层十大趋势白皮书》预测2024年将涌现5亿新应用，AIGC技术爆发增长，B端办公和生产力场景将率先受益，AI将重新定义组织形态。

【AiBase提要:】

🚀 AIGC应用在B端和生产力场景崛起，以知识管理为主流应用场景。

🌐 大模型从追赶时髦发展为真正实用，成为提效的关键手段。

💼 AI人才缺口问题突出，预测2026年80%企业难以找到熟练AI专业人员。

原钉钉副总裁成立Al应用开发平台BetterYeah

斑头雁智能科技由原钉钉副总裁张毅创立，完成近千万美元A轮融资，致力于开发企业级AI Agent产品BetterYeah AI，主要应用于销售、客服和营销场景，以提高企业效率和增加收入。

【AiBase提要:】

🚀 融资成功: 斑头雁智能科技完成亿元A轮融资，累计融资额达1亿元人民币。

💡 产品特色: BetterYeah AI面向企业客户，以多模态模型为核心，提供工作流、数据集、工具和聊天功能，帮助企业无缝集成AI。

💰 低成本平台: 公司旨在通过提供一站式AI开发平台和封装好的Agent，帮助企业以低成本快速应用AI技术。

三星Unpacked将揭秘Galaxy S24系列及全新AI聊天机器人

三星宣布Galaxy S24系列将于1月17日在硅谷SAP中心发布，重点推出新ISOCELL Zoom功能，并将集中展示名为高斯的AI聊天机器人，与谷歌的Gemini一同运行在三星Android设备上。

【AiBase提要:】

📱 Galaxy S24发布: 三星正式宣布Galaxy S24系列，预计加强光学变焦和推出可能的钛金版，将于1月17日在硅谷SAP中心发布。

🤖 AI聊天机器人高斯: 三星Unpacked活动将集中关注人工智能部分，推出名为高斯的新机器人，与谷歌Gemini一同在三星Android设备上运行，提供增强功能。

💰 特别优惠: 针对计划在新年之际升级手机的消费者，三星准备了特别优惠，截至1月16日预订Galaxy S24系列设备可享受50美元折扣。

全球首家AI餐厅开业

位于南加州的CaliExpress by Flippy是全球首家由人工智能驱动的全自动餐厅，机器人负责烹饪汉堡和炸薯条，顾客可定制菜单，实现自动下单和烹饪。

【AiBase提要】

🍔 创新菜单体验: CaliExpress by Flippy提供汉堡、芝士汉堡和薯条，顾客在机器人烹饪过程中可进行定制。

🤖 科技合作打造: 由Cali Group、Miso Robotics和PopID合作，利用生物识别简化订单支付系统，几乎消除了烹饪中的失误和烧伤。

🏛️ 多功能餐厅体验: 除全自动烹饪外，CaliExpress by Flippy的位置还展示Miso Robotics呈现的伪博物馆体验，包括机械臂、3D打印品和摄影展示等。

👨‍💻💡🎯聚焦开发者

阿里AI项目DreamTalk开源

阿里巴巴开源项目DreamTalk，能让人物头像栩栩如生地说话，支持多语言、歌曲、嘈杂音频匹配，开放更多开发者创新。

模型下载地址:https://huggingface.co/damo-vilab/dreamtalk

项目地址:https://top.aibase.com/tool/dreamtalk

【AiBase提要】

🔍 技术特点: DreamTalk利用扩散模型生成高质量动画，实现逼真嘴唇动作和丰富表情，支持多语言同步，可用于不同场景和环境。

🚀 风格预测功能: 具备说话风格预测，根据语音自动调整动画表情，使得生成的动画更加贴近原始音频。

🌐 开源意义: DreamTalk的开源将为语音合成技术的发展提供新的动力，吸引更多开发者和研究人员参与，拓展项目功能和改进技术。

Text2Immersion:可通过文本直接生成3D场景

Text2Immersion是一项创新方法，通过文本提示生成高质量的3D沉浸式场景，可适用于室内和室外，展现出色的灵活性和创造力。

体验地址:https://top.aibase.com/tool/text2immersion

【AiBase提要:】

🌐 广泛适用场景:Text2Immersion不仅可生成室内场景如“温馨的客厅”，还能应对室外场景，如“秋天的公园”，展现强大的生成能力。

🌈 应对风格化场景:该方法不仅局限于真实场景，还能应对风格化场景的挑战，通过文本提示如“水彩夜街”和“未来夜城”展示创造力和适应能力。

🚀 广泛应用前景:Text2Immersion的灵活性使其在虚拟现实、游戏开发和自动化内容创作等领域具有广泛应用前景，超越其他方法在渲染质量和多样性方面的表现。

AiBase副业搞钱交流群

欢迎大家加入AiBase交流群，扫码进入，畅谈AI赚钱心得，共享最新行业动态，发现潜在合作伙伴，迎接未来的赚钱机遇！。

相关资讯

近期资讯

鸿蒙开发：文本合成语音

在鸿蒙当中，如何实现根据指定的文本进行合成语音合成播放呢，其实也是非常的简单，因为鸿蒙当中也有textToSpeech。

程序员一鸣 2024-12-30

解锁AI潜力：AI在销售领域的应用案例(非Chatbot)

作者 | Shaw Talebi 编译 | 岳扬客户向我提出的最常见需求是“为我打造一个专属的聊天机器人。”虽然这种需求是解决某些问题的好办法，但远不是万能的。在本篇文章中，我将分享企业可以利用

Baihai_IDP 2024-12-30

C#/.NET/.NET Core技术前沿周刊 | 第 19 期（2024年12.23-12.29）

前言 C#/.NET/.NET Core技术前沿周刊，你的每周技术指南针！记录、追踪C#/.NET/.NET Core领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。

追逐时光者 2024-12-30

消费降级磨刀霍霍向电影，行业风光难再？

2024对于电影人来说应当是个需要转变的年份

文娱价值官 2024-12-30

Hinton发2024末日预警：10年内人类灭绝，奥特曼预言18个月ASI降临

2024年终，AI大佬们纷纷发出预测。奥特曼表示，ASI将很快到来，18个月后，我们或许就将见证奇迹。LeCun表示，AGI两年内不会到来。但Hinton则认为，AI很可能在10年内，就会让人类灭绝！

新智元 2024-12-30

英伟达2025祭出「迷你大脑」，雷神「Thor」剑指千亿机器人市场

谷歌、亚马逊等巨头纷纷摆脱GPU依赖，于是英伟达选择押注机器人！现在，英伟达已开发了机器人全套解决方案，计划在明年年中发布全新一代人形机器人专用小型计算机Jetson Thor。全球机器人市场，或将迎来大爆发。

新智元 2024-12-30

Android U WMS: 近期任务动画(2)

为了不把“战线”拉得太长，上一篇文章省略了 fixed rotation 的分析，本文就重点分析这个。 fixed rotation 由于是从一个横屏的 app 返回竖屏的桌面，这里利用 launch

大胃粥 2024-12-30

债券基金经理的路越走越窄

没有不开心，也没有很开心

远川投资评论 2024-12-30

抖音电商的三道“选择题”

低价还是GMV？达播还是店播？直播电商还是货架电商？

字母榜 2024-12-30

鸿蒙开发：自定义一个车牌字母键盘

车牌字母键盘和一般的键盘还有很大区别的，大家可以发现，键盘上是少一个字母的，因为I字母具有混淆性，所以这个字母是不在车牌键盘内的。

程序员一鸣 2024-12-30

AI视野：腾讯发布音乐生成模型M2UGen；米老鼠SD模型上线；

推荐体验

相关资讯

AI视野：Midjourney正式上线Alpha网页版；OpenAI恢复会员注册；腾讯发布视频生成模型

AI视野：Adobe发布新一代AI生成模型Firefly Image2；Meta发布Llama2-Long模型；

AI视野：谷歌Gemini Pro开放；文心一言插件商城上线；谷歌图像生成模型Imagen2发布；

AI视野：腾讯云AI绘画上线SaaS版本；SOLAR10.7B大模型屠榜；LG发布全新AI笔记本；

AI视野：智谱AI发布大模型GLM-4；腾讯发布PhotoMaker；GPT Store现多款违规AI女友；D

近期资讯

鸿蒙开发：文本合成语音

解锁AI潜力：AI在销售领域的应用案例(非Chatbot)

C#/.NET/.NET Core技术前沿周刊 | 第 19 期（2024年12.23-12.29）

消费降级磨刀霍霍向电影，行业风光难再？

Hinton发2024末日预警：10年内人类灭绝，奥特曼预言18个月ASI降临

英伟达2025祭出「迷你大脑」，雷神「Thor」剑指千亿机器人市场

Android U WMS: 近期任务动画(2)

债券基金经理的路越走越窄

抖音电商的三道“选择题”

鸿蒙开发：自定义一个车牌字母键盘

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响