本周带来的 5 个 SOTA 模型分别用于聊天对话、内容生成、多任务语言理解、实例分割;5个工具用于聊天对话、内容生成应用开发、模型开发框架、文生图。
OpenAI发布GPT4,支持图片输入,文字输入限制提升至2.5万字
GPT-4 Technical Report
OpenAI 正式发布多模态预训练大模型 GPT4,实现以下能力飞跃式提升:能接受图像和文本输入,再输出正确的文本回复,拥有强大的识图能力。文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。正式发布前,OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,在真实性、可控性等方面取得了有史以来最好的结果,在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%。
获取资源:
https://sota.jiqizhixin.com/project/gpt4
斯坦福发布Alpaca,在LLaMA 7B基础上微调52K指令数据得到的轻量级语言模型
斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。在生成高质量指令遵循数据方面,使用了 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,并以此作为 Alpaca 的训练数据。Alpaca 表现与 text-davinci-003 类似,性能可媲美 GPT-3.5。目前斯坦福已将训练数据、生成训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。
获取资源:
https://sota.jiqizhixin.com/project/alpaca
谷歌发布PaLM API,供开发者接入大模型用于对话等应用开发
谷歌发布 PaLM API ,开发者可以使用 PaLM API 访问 Google 大型语言模型,它将为开发者提供面向对轮交互而优化的模型,如内容生成与对话,可用于各种应用程序开发。它也能为开发者提供摘要、分类等多种任务的通用模型。PaLM 是谷歌基于 Pathways 系统训练的一个 5400 亿参数的大型语言模型,在数百个语言理解和生成任务上,实现了 SOTA 少样本学习性能,可以出色地完成笑话解读、bug 修复、从表情符号中猜电影等语言、代码任务。目前,谷歌定向选定的开发人员提供这些工具,而非全面开放。
获取资源:
https://sota.jiqizhixin.com/project/palm-api
百度发布知识增强大语言模型文心一言,专注中文理解与生成
顶着 GPT-4 带来的压力,百度正式发布了知识增强大语言模型文心一言,专注中文理解与生成,能够进行文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成。文心一言基于知识增强千亿大模型 ERNIE,同时借鉴了文心对话大模型 PLATO,二者的技术都在文心一言身上得到了延伸,在训练过程中不断改进。文心一言包含六个核心技术模块,分别是有监督精调、人类反馈的强化学习、提示以及知识增强、检索增强和对话增强。当前可通过邀请码体验文心一言效果。
获取资源:
https://sota.jiqizhixin.com/project/wen-xin-yi-yan
ChatGPT最强竞品Claude开放API,原GPT-3核心成员打造
Anthropic 开放 Claude API ,Claude 被称为 ChatGPT 最强竞品,由原 GPT-3 核心成员打造。Claude 目标是成为安全、接近人类价值观且合乎道德规范的 AI 系统,和 ChatGPT 类似,Claude 具有高超的对话能力,能够处理总结、搜索、创意、写作问答等任务。当前官方开放申请体验地址以及 API 使用说明。
获取资源:
https://sota.jiqizhixin.com/project/claude-api
PyTorch 2.0正式版发布,训练速度快、可用性强100%向后兼容
PyTorch 2.0 延续了之前的 eager 模式,从根本上改进了 PyTorch 在编译器级别的运行方式,将性能推向新的高度。torch.compile 是一个完全附加的(可选的)特性,因此 PyTorch 2.0 是 100% 向后兼容的,其能够在 165 个开源模型上运行,并且在 float32 精度下平均运行速度提高 20%,在 AMP 精度下平均运行速度提高 36%。在模型开发上,新版本引入了对训练和推理的高性能支持,使用自定义内核架构实现缩放点积注意力 (SPDA),显著提升了模型速度。
获取资源:
https://sota.jiqizhixin.com/project/pytorch
清华大学基于GLM开源支持中英双语的对话语言模型ChatGLM,具有62亿参数
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
获取资源:
https://sota.jiqizhixin.com/project/chatglm
斯坦福等团队开源FlexGen,单GPU大型语言模型的高吞吐生成式引擎
High-throughput Generative Inference of Large Language Models with a Single GPU
大型语言模型(LLM)推理的高计算量和高内存需要通过多个高端加速器来实现。出于对分批处理的延迟不敏感任务的新需求,该研究提出 FlexGen,可在有限的 GPU 内存中运行 LLM 的高吞吐量生成引擎。FlexGen 可在各种硬件资源限制下灵活配置,通过聚合 GPU、CPU 和磁盘的内存和计算。通过线性编程优化器,来搜索有效的模式来存储和访问张量。FlexGen 进一步将权重和注意力缓存压缩到 4 bits,使大型语言模型在单个 GPU 上高吞吐地生成,精度损失可忽略不计。
获取资源:
https://sota.jiqizhixin.com/project/flexgen
清华等推出首个基于Transformer的多模态扩散大模型UniDiffuser,实现文图互生、改写
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
该研究提出了一个为多模态设计的概率建模框架 UniDiffuser,并采用该团队提出的基于 Transformer 的网络架构 U-ViT,在开源的大规模图文数据集 LAION-5B 上训练了一个十亿参数量的模型,使得一个底层模型能够高质量地完成多种生成任务,例如文生图、图生文、图文联合生成、无条件图文生成、图文改写等,大幅提升文图内容的生产效率,也进一步提升了生成式模型的应用想象力。
获取资源:
https://sota.jiqizhixin.com/project/unidiffuser
大连理工大学等提出通用实例感知模型UNINEXT,统一的对象发现和检索范式
Universal Instance Perception as Object Discovery and Retrieval
大连理工用一套模型参数高效表示实例感知任务,提出了一个新的通用实例感知模型,称为 UNINEXT。UNINEXT 将不同的实例感知任务重新表述为一个统一的对象发现和检索范式,并且可以通过简单地改变输入提示来灵活地感知不同类型的对象,节省冗余计算。UNINEXT 在 10个实例级任务的 20 个挑战性基准上显示了卓越的性能,包括经典的图像级任务(物体检测和实例分割)、视觉和语言任务(指代表达理解和分割)以及六个视频级物体跟踪任务。
获取资源:
https://sota.jiqizhixin.com/project/uninext
网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。