当前位置：首页|资讯

模型融合创新性好强！最新成果直接登顶SOTA，分分钟拿下顶会

作者：深度之眼官方账号发布时间：2024-09-06

Transformer作者创业新成果火了！他们提出了一个70亿参数的日语数学大模型，直接打败700亿参数的Llama-2取得SOTA！更牛的是，得出这样的模型无需任何梯度训练，所需计算资源大大减少。

这种炸裂的成果得益于模型融合（Model Merging）技术，利用现有模型的参数、架构和特性，巧妙结合成一个新的、功能更强大的模型，这不仅减少了从头训练大型模型所需的计算资源和时间，还能帮我们在模型研究大爆发的情况下抓住机会，实现快速创新。

因此今年关于模型融合的研究也逐渐火热，出现了很多效果出众的成果，比如Zipit! 方法，性能最高提升了60%！为了给想发论文的同学节省时间，我从中挑选了11篇最新的模型融合论文给大家作参考，每一篇都值得学习，希望大家研读之后能有所收获。

扫码添加小享，回复“模型融合”

免费获取全部论文+开源代码

Evolutionary Optimization of Model Merging Recipes

方法：论文提出了一种使用进化算法进行模型合并的方法，该方法在参数空间和数据流空间中操作，通过优化权重和推理路径，自动发现有效的模型组合，实现模型合并，生成具有新能力的模型，并在各种基准测试中取得了最先进的性能。

创新点：

通过进化算法自动发现多种开源模型的有效组合，而无需额外的训练数据或计算资源。
通过在参数空间和数据流空间中操作，实现了对个体模型权重以外的优化，实现了模型合并的优化。
创新地合并不同领域（如非英语语言和数学，或非英语语言和视觉）的模型，展示了合并模型在多个基准测试中取得的优秀性能。
提出了一种综合的框架，同时在参数空间和数据流空间中进行模型合并，进一步提升了合并模型的性能。

Zipit! merging models from different tasks without training

方法：本文提出了一种称为"ZipIt!"的模型融合方法，可以将训练在不同任务上的两个模型合并为一个多任务模型，无需额外训练。与之前的方法不同的是，ZipIt!支持在模型内部和跨模型之间合并特征，从而获得更好的性能。

创新点：

该方法引入了两种策略来解决模型融合的问题。首先，为了考虑到模型之间不共享的特征，它扩展了模型合并问题，允许在每个模型内部合并特征，通过定义一个通用的“zip”操作。其次，它支持部分合并模型，从而创建一个多头模型。
通过使用ZipIt!方法，作者发现在合并具有不同初始化的模型时，与之前的方法相比，可以获得20-60%的改进。

扫码添加小享，回复“模型融合”

免费获取全部论文+开源代码

TIES-MERGING: Resolving Interference When Merging Models

方法：论文介绍了一种解决模型融合中干扰问题的方法——TIES-MERGING。研究目标是将多个专门任务的模型融合为一个多任务模型，以在域内和域外的场景中都能表现良好。

创新点：

引入一种解决模型合并时干扰问题的方法TIES-MERGING（修剪、选择符号和合并）。
TIES-MERGING修剪了微调模型值中的小幅度变化，然后解决了合并模型间的符号不一致问题。
TIES-MERGING在多种设置中优于几种现有方法，包括不同的模态、模型大小、领域、任务数量、架构和微调设置。

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

方法：本文介绍了一种有效地合并预训练视觉模型的方法。作者提出了一种多任务蒸馏和记忆重演的简单而高效的方法，将多个视觉模型合并成一个统一的架构。具体来说，作者将该方法应用于合并SAM和CLIP视觉模型，并介绍了合并后的SAM-CLIP模型。

创新点：

通过多任务蒸馏和记忆回放的方法，将公开可用的视觉基础模型合并成一个统一的架构。这种方法能够在最小程度上遗忘原始模型的零样本能力，适合在边缘设备上部署。
通过合并模型产生更丰富的表示，适用于更多不同的下游任务。与原始模型相比，在头部探测评估设置中，合并的模型能够产生更多样化的表示，具有更多的下游任务可利用性。

扫码添加小享，回复“模型融合”

免费获取全部论文+开源代码

推荐体验

相关资讯

OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！直接拿下SOTA

OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！直接拿下SOTA 明敏西风发自凹非寺量子位公众号 QbitAI OpenAI一个简单的动作，让大模型数学能力直接达到S

量子位 2023-06-01

发顶会首选：具身智能！新成果直接霸榜CVPR

最近无论是斯坦福机器人炒虾，还是特斯拉官宣机器人进厂，都赚足了眼球，实力证明了具身智能的火爆。先不说具身智能是实现AGI的关键环节，也是未来研究的重要方向，我们就从发论文的角度来看，今年的各大顶会，比如CVPR，具身智能就排了热门研究领域前三，可见入局具身智能早已成了必然趋势。目前具身智能主要四个研究目标：具身感知、具身互动、具身智能体、虚拟到现实。如果大家想冲顶会，建议从这四个角度入手，我这边也整理了20篇具身智能顶会开源论文给各位参考，都是2024年最新，包括CVPR、ECCV、ICML等。另外我还准

深度之眼官方账号 2024-08-29

OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！论文数据集全开放，直接拿下SOTA

基于GPT-4，他们微调了几个模型，分别采用不同的监督方法。而降低幻觉的出现，又被视为走向AGI的关键一步。

OpenAI GPT-4 AGI

量子位 2023-06-01

拿下国际顶会赛事第一 Soul“AIGC+社交”技术基建再加码

此次多模态情感识别挑战赛（MER24）上，设置了SEMI（半监督学习）、NOISE（噪声鲁棒性）、OV（开放式词汇情绪识别）三个赛道，共吸引了来自知名高校、科技企业等近百支参赛队伍。目前，Soul具备多模态情…

科讯天下 2024-08-01

建议收藏！2023最新CVPR人工智能顶会论文

另附100G人工智能学习资料：【1】人工智能学习课程及配套资料? 【2】超详解人工智能学习路线图及学习大纲【3】学人工智能必看优质书籍电子书汇总【4】人工智能面试题库大全以及问题总结【5】人工智能经典论文100篇+解读+复现教程【6】计算机视觉技术教学课程+YOLO等项目教学【7】人工智能行业报告欢迎关注公众号：AI技术星球，回复333领取你想要的人工智能学习资料哦！

DeepLearningRNG 2023-02-13

近期资讯

中科院院士点赞江苏人工智能产业，肯定玄武大模型工厂

员玄萱记者董婉愉）昨天，“以科技赋能新质生产力创新引领高质量发展”为主题的江苏产学研合作对接大会在南京开幕。姚期智院士表示，江苏省在产业、政策、技术、科教人才、创新能力等方面有坚实基础，如何能够让高效结合大模型的能力与江苏丰富多元的产业场景，帮助江苏的产业提质增效，是当前最值得江苏考虑的方向。

扬子晚报 2024-09-14

爱彼迎VS美团民宿，看国内外软件在产品设计上到底有哪些不同？

国内的软件市场，受人口数量影响，软件产品的品类众多，内卷严重，获客成本相对较高，但国外软件发展不像国内那么迅速，因此各大厂商都纷纷出海，寻求发展机会。爱彼迎：是全球领先的民宿短租平台，致力于通过为旅行者提供独特、当地化的住宿体验，与房东建立深刻的连接。

人人都是产品经理 2024-09-14

建设工程项目管理经验交流观摩活动走进中建四局五公司深圳鹏峰大厦项目工地

9月12日,由中国建筑协会指导,中国建筑业协会工程项目管理与建造师分会、深圳市南山区建筑工务署、广东省建筑业协会、深圳建筑业协会、深圳市福田区住房和建设局主办,中建四局参与承办的建设工程项目管理经验交流会在深圳举办,会议以“数智创新与绿色建造,塑行业高质量发展引擎”为主题,旨在探索建筑业在数字化转型与绿色发展道路上的新路径、新策略。

东方网 2024-09-14

清华大学戴琼海团队：RUSH3D显微仪器发布，每秒20次三维成像

【清华大学戴琼海团队研发新一代介观活体显微仪器RUSH3D】历经十余年探索，清华大学戴琼海团队自主研发出RUSH3D，该仪器具备厘米级三维视场与单细胞分辨率，成像速度高达每秒20次，可实现长达数十小时的全景连续观测。这一重要成果于13日晚发表于国际学术期刊《细胞》。

和讯网 2024-09-14

全球首个2亿像素极致高清“球幕”沉浸空间落户盐田

9月13日，盐田区合景同创广场迎来了一场前所未有的视听盛宴——“歘与无影·天穹之城”全球首个2亿像素极致高清“球幕”沉浸空间正式揭幕。

深圳商报 2024-09-14

经开区主题展区亮相从一扇“窗口”看开放创新“亦庄故事”

在服贸会首钢园2号馆，北京经济技术开发区（也称“北京亦庄”）主题展惊艳亮相，通过展示小米SU7、长木谷手术机器人、捷龙三号火箭模型等“亦庄造”高精尖成果，以此为“窗口”向来自全球各地的参观者讲述开放创新“亦庄故事”。

北青网 2024-09-14

2024年中国AI医疗行业市场现状及竞争格局分析 AI医疗市场非常分散

AI医疗是指运用先进的人工智能技术，包括机器学习、自然语音处理、深度学习等技术对药物开发、患者诊疗等环节进行智能化管理和升级，从而提高医疗服务的效率和质量。

前瞻网 2024-09-14

机情问答：三折叠真的实用？魅族Lucky 08值得等吗？

不少人好奇，这样的设计是否真的能够带来实际的好处，还是仅仅停留在概念阶段的炫技？对于首次考虑购买折叠屏手机的朋友来说，横折与竖折这两种不同的折叠方式，哪一种更能满足日常使用的需求呢？而对于预算有限的消费者来说，2000元价位段的选择已经相当丰富，星纪魅族即将推出的Lucky08也引起了不少关注。

手机中国 2024-09-14

打造事实核查共同体：“澎湃明查”启动工作坊及全球学者计划

错误信息与虚假信息在新技术的传播中不断裂变，成为了难以被看见的障目之叶。作为一家有影响力的互联网新型主流媒体，自2021年9月以来，澎湃新闻践行媒体社会责任，专业赋能品牌，综合发挥原创与平台优势，打造了一个具备专业性、开放性与互动性的全球事实核查平台——“澎湃明查”。

澎湃新闻 2024-09-14

首次！用合成人脸数据集训练的识别模型，性能高于真实数据集

过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。之前的生成式模型(GAN,Diffusionmodel,Stablediffusionmodel)最多只能生成8万个不同身份的图像[1]。

机器之心Pro 2024-09-14

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1