AI视野：美图大模型将向公众开放；黑客大规模恶意注册ChatGPT相似域名

作者：站长之家发布时间：2024-01-02

ChatGPT

🤖📈💻💡大模型动态

美图大模型将向公众开放

美图公司的AI视觉大模型MiracleVision于2023年6月内测，已升级至4.0版本并通过备案，成为国内唯一专注视觉领域的大模型，将在电商、广告、游戏、动漫、影视等行业开放服务。

【AiBase提要:】

🌐 MiracleVision4.0升级，为美图旗下产品提供AI模型能力。

🔓 是国内备案通过的唯一专注视觉领域的大模型。

🚀 将在电商、广告、游戏、动漫、影视等行业开放服务。

Meta推全新视频生成模型FlowVid

Meta与清华校友合作开发的FlowVid视频生成模型利用V2V技术，在短短1.5分钟内生成4秒视频，突破了时间连贯性难题，通过光流技术实现视频帧之间的高度一致性。

论文地址:https://arxiv.org/pdf/2312.17681.pdf

项目地址:https://top.aibase.com/tool/flowvid

【AiBase提要:】

🚀 新模型发布: Meta与清华校友联手推出FlowVid视频生成模型，采用V2V技术，为AI视频生成领域带来新突破。

⚙️ 核心技术: FlowVid利用空间条件和源视频中的时间光流信息，解决了V2V合成的时间连贯性难题，保持视频帧之间的一致性。

🌐 用户研究表现: 在用户研究中，FlowVid在及时对齐和整体视频质量方面表现出色，以45.7%的偏好率超越其他V2V模型，如CoDeF、Rerender和TokenFlow。

LangSplat:比LERF快199倍的3D语言搜索模型

LangSplat是由清华大学和哈佛大学研发的3D语言高斯模型，通过将CLIP特征映射到3D语言高斯中，实现了比LERF快199倍的精准3D语言搜索。

项目体验网址:https://top.aibase.com/tool/langsplat

【AiBase提要】

🚀 创新方法: LangSplat通过将CLIP特征映射到一组3D语言高斯中，实现了精准的3D语言场，比LERF快199倍。

🌍3D语言场: LangSplat构建了一个3D语言场，支持在3D空间内进行精准高效的开放式语言查询。

🎨 视觉效果: LangSplat通过可视化学习特征，准确捕捉物体边界，无需后处理，同时在1440×1080分辨率下比LERF快199倍。

多模态AI模型Unified-IO2:可理解和生成图像、文本、音频和动作

近日，由艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校和华盛顿大学的研究人员联合开发的Unified-IO2标志着人工智能领域的一次飞跃。该模型采用独特的单编码器-解码器变压器模型，能够处理和生成文本、图像、音频和视频等多种数据类型。在35个数据集上的评估中，Unified-IO2创下了GRIT评估的新记录，特别在图像生成方面超越了竞争对手，展现了其卓越的设计和性能。

项目体验网址:https://top.aibase.com/tool/unified-io-2

【AiBase提要:】

🌐 多模态整合前沿: Unified-IO2是一款具有自回归能力的多模态AI模型，能够处理和生成文本、图像、音频和视频等多种数据类型，标志着人工智能领域的重大突破。

🧠 创新架构: 采用独特的单编码器-解码器变压器模型，通过共享的表示空间对不同输入进行编码，克服了以往模型在处理多模态数据时的限制，展现了其卓越的设计和性能。

📈 性能超群: 在35个数据集上进行评估，Unified-IO2在GRIT评估中创下新的记录，在关键点估计和表面法线估计等任务上表现卓越，特别在图像生成方面超越了竞争对手，展现了其广泛的能力范围。

📰🤖📢AI新鲜事

AI绘图模型写字难题被阿里AnyText破解

阿里巴巴推出的AnyText AI绘图工具成功解决了以往模型难以准确写入文字的问题，支持中英日韩四种语言，可以任意指定文字位置。

项目体验网址:https://top.aibase.com/tool/anytext-tuwenronghe

【AiBase提要:】

🎨 多语言支持:AnyText能够准确绘制中英日韩四种语言，彻底解决了文字绘图模型的难题。

🖌️ 灵活文字定位:用户可以精准指定文字位置，包括在绘制时加入文字、修改已有文字或向图中添加文字。

🌐 独立完成文字渲染:AnyText基于扩散模型，通过隐空间辅助模块和文本嵌入模块实现文字生成，提高了书写精度和文字与背景的一致性。

微软推出WaveCoder:提升指令调优与数据生成

微软研究人员发布WaveCoder模型，通过多才的指令调优在代码相关任务上表现出色。引入CodeOcean数据集，采用基于LLM的生成器-鉴别器框架，从开源代码中生成多样、高质量指令数据，扩展指令调优的泛化能力。

论文网址:https://arxiv.org/pdf/2312.14187.pdf

【AiBase提要:】

🚀 WaveCoder模型通过广泛指令调优在不同任务上表现出色。

📊 引入CodeOcean数据集，包含4个通用任务的指令实例，增强指令调优效果。

🔄 提出基于LLM的生成器-鉴别器框架，分类生成多样、高质量指令数据，控制数据质量。

斯坦福Meta研究证明Gemini推理能力强于GPT-3.5

斯坦福和Meta的研究发现，Gemini在全面的常识推理任务中表现强劲，超越先前基于有限数据集的评估，证明其推理性能优于GPT-3.5。

【AiBase提要】:

🌐 斯坦福和Meta的研究挽回了Gemini在常识推理上的声誉，强调有限数据集评估的不足。

🚀 在综合12个常识推理数据集的测试中，Gemini在复杂推理任务中表现出强大的潜力。

💡 在多模态和语言任务中，Gemini Pro的表现与GPT-3.5相当，略逊于GPT-4，揭示了不同模型在不同推理任务上的优劣。

黑客大规模恶意注册与ChatGPT相似的域名

网络安全研究发现黑客大规模注册与ChatGPT相似的域名，模糊用户判断，利用模型信誉欺骗用户，涉及超过65万个恶意域名，引发下载恶意内容和泄露敏感信息等安全问题。

【AiBase提要:】

🌐 恶意利用ChatGPT名声: 黑客注册大量与ChatGPT相似的域名，借助模型信誉欺骗用户，引发下载恶意内容、泄露敏感信息等问题。

🌐 Cl0p勒索软件攻击: 利用MOVEit的零日漏洞，俄罗斯Cl0p组织实施全球企业和美国机构的勒索软件攻击，包括勒索未付款时将数据泄露到公开网络的新策略。

🌐 多样化威胁: 包括Mozi僵尸网络关闭、Android/Pandora威胁攻击智能设备、对ChatGPT用户的定向攻击等，强调API密钥隐私保护的重要性。

🤖📱💼AI应用

多功能即时语音克隆技术OpenVoice

OpenVoice是一项实用的即时仿声技术，能根据目标发言人的短音频模仿其声音，精细控制情感、口音、语调等，实现零样本跨语言模仿。

项目地址:https://top.aibase.com/tool/openvoice

【AiBase提要】

🔊 准确音色克隆: OpenVoice可复制参考音色，生成多语言和口音的语音。

🎭 灵活语音风格控制: 用户可精细控制情感、口音、语调、停顿和节奏等语音风格。

🌐 零射击跨语言语音克隆: 模型可在未训练语言中生成语音，展示适应性和多功能性。

👨‍💻💡🎯聚焦开发者

ComfyUI实用插件!可在ComfyUI中调用GPT-4和DALL-E3

Plush-for-ComfyUI插件在ComfyUI平台中调用GPT-4和DALL-E3，通过图片提取提示词，实现图像处理与生成，为用户提供强大而有趣的工具。

项目地址:https://top.aibase.com/tool/plush-for-comfyui

【AiBase提要:】

🚀 Plush-for-ComfyUI插件可在ComfyUI平台调用GPT-4和DALL-E3，提供强大的图像处理与生成功能。

💡 插件包括Style Prompt和OAI Dall_e3节点，支持文本和图像提示，生成ChatGPT3或4的提示，以及使用DALL-E3生成图像。

🔑 使用前需配置OpenAI API密钥，安装ComfyUI、Base和Refiner SDXL模型，推荐初次使用选择完整的SDXL Base和Refiner模型获取最佳效果。

开放世界游戏角色扮演智能体框架LARP 唤醒NPC

LARP是一个创新框架，致力于增强用户与语言代理在开放世界游戏中的互动体验。其认知架构包含记忆处理和决策辅助功能，环境交互模块通过反馈驱动学习提高代理在游戏环境中的适应能力，而后处理方法促进各种个性的对齐，提供更真实、沉浸式的交互。

项目地址:https://top.aibase.com/tool/larp

【AiBase提要:】

🧠 认知架构: LARP采用强大认知架构，注重记忆处理和决策辅助，确保代理在动态开放世界中的连贯行动。

🔄 环境交互模块: 具备反馈驱动可学习行动空间，使代理能够实时学习并调整行动，提高在游戏环境中的导航和交互能力。

🎭 个性对齐后处理: 引入后处理方法促进各种个性的对齐，提升代理交互真实感，为用户创造更沉浸式、引人入胜的开放世界游戏体验。

MagicDance:基于扩散的人体运动传递框架生成逼真舞蹈视频

MagicDance框架是一种基于扩散的计算机视觉模型，通过两阶段训练策略专注于人体动作解缠和外观因素，成功生成高度逼真的人类舞蹈视频，为计算机视觉和人工智能领域带来新可能性。

项目地址:https://top.aibase.com/tool/magicdance

【AiBase提要:】

😲 MagicDance框架采用稳定扩散模型，在两阶段训练中关注外观解缠，成功生成既逼真又具有原始身份信息的舞蹈视频。

🌐 在TikTok数据集上预训练，展现了卓越的泛化能力，MagicDance框架在复杂运动序列和不同人类身份下保持高水准逼真性。

🚧 尽管面临一些挑战，如复杂场景中的面部标志和姿势骨架检测，MagicDance框架为人体运动传递和舞蹈视频生成领域带来显著进展。

腾讯推新技术Paint3D 给3D模型生成高清纹理

腾讯推出的Paint3D技术在解决3D模型缺乏内嵌光照信息的情况下，能够自动化生成高分辨率、无光照的多样化纹理贴图，为自动化纹理贴图生成领域带来重大进展。

项目地址:https://top.aibase.com/tool/paint3d

【AiBase提要:】

🚀Paint3D利用两阶段纹理生成框架，在UV纹理空间上训练无光照扩散模型，显著提升了3D模型纹理生成效果，成为唯一能生成无内嵌光照纹理的算法。

🌐Paint3D通过量化和定性实验，几乎在所有样本上达到更好的效果，在纹理生成质量和符合输入条件方面优于当前最佳算法，标志着自动化纹理贴图生成领域的重大进展。

🖌️Paint3D生成的纹理贴图没有内嵌光照阴影效果，可被重新照明或编辑，直接应用于现有渲染管线，在艺术创作、数字媒体制作和游戏内容创作等领域具有重要作用。

AI视野：美图大模型将向公众开放；黑客大规模恶意注册ChatGPT相似域名

推荐体验

相关资讯

阿里云通义千问正式向公众开放，近期将开源更大参数规模大模型

多家大模型首批通过备案向公众开放

多款大模型向公众开放，实测“智商”和“情商”

通讯Plus·早报|国产大模型陆续向公众开放

百度将推“类ChatGPT”应用，三月向公众开放

近期资讯

江苏浙南装备技术有限公司取得机器人焊钳专利，大大提高了对支架的降温效果

惠州市板桥电子取得变压器加工用焊接装置专利，实现装置自由移动

浠玻（湖北）玻璃股份有限公司取得一种渐变成型的夹层玻璃热弯成弧设备及其应用方法专利

卡优连接技术（嘉兴）有限公司取得用于卡箍的焊接设备专利，对焊接完成后的卡箍快速下料提高生产效率

河南力锋科技取得一种焊接机器人设备专利，有效提高焊接效率

通宇通讯：公司在商业航空应用包括机载卫星天线等产品，重视该领域的布局并将持续研发

江西省地质工程集团申请公路软基轻质材料填充压实专利，保障整体压实稳定性能

东莞凤岗嘉辉取得无缝烧焊跟随装置专利，可在烧焊头位移后使跟随组件始终能采集到焊接处信息

中运锚链取得系泊链链环夹持装置专利，解决作业人员在对其系泊链链环进行维修时视野受阻的问题

无锡市光蕙金属制品有限公司取得串焊机可调式支撑底座专利，无需人工抬起即可将底座转移提高装置移动便捷性

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响