当前位置:首页|资讯|GPT-4|ChatGPT|Copilot|编程|斯坦福

中文Alpaca模型Luotuo,权重语料均开源,适用各类垂域开发;GPT-4版Copilot发布

作者:AI试库の小土同学发布时间:2023-03-28



看看本周新进展

本周带来的 个 SOTA 模型分别用于开放领域的对话、问答、3D 对象重建、视频去闪烁、3D 物体跟踪;个工具用于代码生成。

中文Alpaca模型Luotuo开源,权重语料均发布可应用到各类垂直领域

Alpaca 是斯坦福团队基于 LLaMA 7B 在 52k 指令上微调得到的模型,能出色适应多种自然语言应用场景。近日来自商汤科技和华中科技大学开源中文语言模型 Luotuo,基于 ChatGPT API 翻译 Alpaca 微调指令数据,并使用 lora 进行微调得到。目前该项目已公开训练的语料和模型权重文件(两个型号),供开发者可使用自己各种大小的语料,训练自己的语言模型,并适用到对应的垂直领域。

获取资源:

https://sota.jiqizhixin.com/project/luotuo


ChatGPT支持插件,可连接到第三方应用程序

OpenAI 发布 ChatGPT Plugins,它能将 ChatGPT 连接到第三方应用程序。ChatGPT Plugins 的插件接入方式非常友好,开发者只需定义清楚插件的用途,ChatGPT 就可以理解所定义插件的调用。连接 ChatGPT 的应用可检索实时信息,例如体育比分、股票价格、最新消息等;检索知识库信息:例如公司文件、个人笔记等;代表用户执行操作:例如,订机票、订餐等。

获取资源:

https://sota.jiqizhixin.com/project/chatgpt-plugins


GitHub发布Copilot X,将GPT-4融入开发场景,带来极致编程体验

本次发布的 GitHub Copilot X,基于 GPT-4 支持实时对话、AI PR 提交处理、智能文档系统、智能命令行、语音生成代码。GitHub Copilot X 集成至 VS Code 和 Visual Studio 上,将 GPT-4 融入到了实际开发场景中,开发者可通过内嵌的聊天窗口实时进行对话问答,以及识别代码内容、显示报错信息、语音交流等操作。当前官方开放内测申请。

获取资源:

https://sota.jiqizhixin.com/project/github-copilot-x


国内火爆社交聊天应用Glow底层模型面向企业用户开放API内测申请

Glow 是国内一款火爆的社交型 AI 聊天应用,与之前搜索引擎助手、回答问题、文案生成类不同,Glow 更强调 AI 社交,在 Glow 里,用户可以根据喜好创建有背景设定、有特定性格的智能体。智能体的性格特质只需要通过一段简短的描述实现,并能在后续对话中不断调整强化。Glow 由创业团队 MiniMax 打造,其高超的能力来源于该团队自研的 3 个通用语言大模型,当前该团队面向企业用户公开 MiniMax 新一代大语言模型 API 的申请。

获取资源:

https://sota.jiqizhixin.com/project/minimax-api


华为提出PanGu-Σ,面向稀疏异构计算的万亿参数语言模型

PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing

华为等在 Ascend 910 人工智能处理器集群和 MindSpore 框架上训练得到万亿级参数的语言模型 PanGu-Σ(1.085T 参数)。利用 PanGu-α 的固有参数,用随机路由专家(RRE)将密集的 Transformer 模型扩展为稀疏的模型,并通过使用专家计算和存储分离(ECSS)对 329B 个标记进行有效的模型训练。这使得通过异构计算的训练产量增加了 6.3 倍。PanGu-Σ 在各种中文 NLP 任务中实现 SOTA。此外,在开放领域的对话、问题回答、机器翻译和代码生成等应用数据中进行微调时,它展示了强大性能。

获取资源:

https://sota.jiqizhixin.com/project/pangu-2


哥伦比亚大学等提出Zero-1-to-3,给定单张RGB图像,实现3D对象重建

Zero-1-to-3: Zero-shot One Image to 3D Object

该研究提出 Zero-1-to-3,只需给定一张RGB图像,即可实现3D对象重建。为了实现该技术,该研究利用了大规模扩散模型对自然图像的几何预设进行新视图合成。并使用条件扩散模型合成的数据集来训练,实现对相对相机视角的控制,这可以在指定的相机转换下生成同一物体的新图像,实现 3D 对象重建。目前 Zero-1-to-3 的预训练模型权重已开源,可在 RTX 3090 Ti 上进行单张图像重建 3D 对象推理、新视图合成。以及在 Hugging Face space 试用单张图像到 3D 对象的转换。

获取资源:

https://sota.jiqizhixin.com/project/zero-1-to-3


香港科技大学提出FateZero,基于文本到图像扩散模型的视频编辑方法

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

该研究提出了 FateZero,建立在预训练文本到图像模型基础上,无需预训练或使用特定掩码,即可实现文本引导的视频编辑方法。FateZero 在反演过程中捕获了中间注意力图,有效地保留了结构和运动信息;将自注意力与通过源提示的交叉注意力特征获得的混合掩码相融合,进一步最大限度地减少源视频的语义泄漏。当前 FateZero 已开源代码仓库,可使用 Stable Diffusion 实现基于文本驱动的视频风格、局部属性编辑。

获取资源:

https://sota.jiqizhixin.com/project/fatezero


中国科学院等提出给老电影、老动画片、延时视频、慢动作视频去闪烁新方法

Blind Video Deflickering by Neural Filtering with a Flawed Atlas

先前去视频闪烁工作通常需要特定的指导,如闪烁频率、手动注释或额外的一致视频来消除闪烁。该研究提出了一个通用的闪烁去除框架,它只接收单一的闪烁视频作为输入,不需要额外的指导利用神经图谱与神经过滤策略合作,取得了令人满意的去闪烁性能,甚至超过了在公共基准上使用额外指导的基线。deflicker 预训练模型文件已开源,可使用预训练模型文件对图像/视频进行去闪烁推理。

获取资源:

https://sota.jiqizhixin.com/project/deflicker


慕尼黑大学提出Text2Room,给定输入文本可生成带纹理的3D房间

Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models

该研究提出 Text2Room,给定输入文本可生成具有纹理的3D房间。为此,该研究利用预训练文本到图像生成模型来合成一系列不同姿势的图像,并根据一系列相机姿势迭代创建带纹理的 3D 房间。为将这些输出提升为一致的3D场景表示,该研究将单眼深度估计与文本到图像生成模型相结合。Text2Room 已开源可复现,通过预训练文本到图像生成模型合成一系列不同姿势的图像,并使用官方提供的脚本从不同姿势图像迭代创建带纹理的 3D 房间。

获取资源:

https://sota.jiqizhixin.com/project/text2room


港中文等提出强稀疏卷积网络VoxelNext,完全通过体素特征实现简单高效地检测和跟踪3D物体

VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking

该研究提出强稀疏卷积网络 VoxelNext,用于完全稀疏的 3D 目标检测。核心是直接根据稀疏体素特征来预测物体,而不依赖手工制作的代理(hand-crafted proxies)VoxelNeXt 完全通过体素特征实现简单高效地检测和跟踪 3D 物体,无需进行稀疏到密集的转换或 NMS 后处理。VoxelNeXt 的预训练模型权重文件和训练数据集已开源,可实现 3D 目标检测和跟踪任务推理和训练。

获取资源:

https://sota.jiqizhixin.com/project/voxelnext


清华等提出3D场景理解新算法SurroundOcc,用来预测自动驾驶多摄像机图像3D占用情况,更全面地感知3D场景

SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

传统方法专注于 3D 目标检测,难以描述现实世界中任意形状和无限类别的物体。为了更全面地感知 3D 场景,该研究提出 SurroundOcc 来预测多摄像机图像的 3D 占用情况。首先为每幅图像提取多尺度特征,并并采用空间 2D-3D 注意力将其提升到 3D 体积空间。然后,采用 3D 卷积逐步上采样体积特征,并在多个级别上施加监督。为了获得密集占有率预测,该研究设计了一个管道来生成密集的占据标签,能够节省大量的注释成本。SurroundOcc 的预训练模型文件已开源,可使用私人数据集进训练自己的模型。

获取资源:

https://sota.jiqizhixin.com/project/surroundocc


旷视提出视频预测SOTA模型DMVFN,仅使用RGB图像低成本实现预测性能

A Dynamic Multi-Scale Voxel Flow Network for Video Prediction

该研究提出动态多尺度体素流网络(DMVFN),与以前的方法相比,仅使用 RGB 图像即可以更低的计算成本实现更好的视频预测性能。DMVFN 的核心是一个可区分的路由模块,可以有效地感知视频帧的运动尺度。经训练后,DMVFN 会在推理阶段为不同的输入选择自适应的子网络。实验表明,DMVFN 比 Deep Voxel Flow 快一个数量级,在生成的图像质量上超过最先进基于迭代的 OPT当前 DMVFN 已开源模型权重文件,训练数据集,并提供 4 个训练数据集的获取方式和处理脚本以及训练命令。

获取资源:

https://sota.jiqizhixin.com/project/dmvfn


中科院提出DiffBEV,将扩散模型应用于BEV感知,实现更优的BEV语义分割和3D对象检测性能

DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception

BEV 感知在自动驾驶领域具有重要意义,是规划、控制和运动预测的基石。BEV 特征的质量在很大程度上影响 BEV 感知的性能,然而通常会获得带有有害噪声的 BEV 表示。该研究提出了一个名为 DiffBEV 的端到端框架,利用扩散模型的潜力来生成更全面的 BEV 表示首个将扩散模型应用于 BEV 感知,设计了三种类型的条件来指导扩散模型的训练,该模型对粗样本进行去噪,并以渐进的方式细化语义特征;利用交叉注意力模块来融合 BEV 特征的上下文和条件扩散模型的语义内容。在多个基准上的定量和定性结果证明了 DiffBEV 在 BEV 语义分割和 3D 对象检测任务中的有效性。

获取资源:

https://sota.jiqizhixin.com/project/diffbev

网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。 

移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。 



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1