当前位置：首页|资讯

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Mamba

作者：机器之心Pro发布时间：2024-10-15

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在自然语言处理、语音识别和时间序列分析等众多领域中，序列建模是一项至关重要的任务。然而，现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。

因此，北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon，它为解决这些难题带来了创新性的方案。经实验验证，其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI) 2024 上发表。

论文标题：MixCon: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling
论文地址：https://zhouchenlin.github.io/Publications/2024-E

例如，早期利用局部敏感哈希方案虽降低复杂度，但引入大常数因子；近期通过改变计算顺序等方法近似 Softmax 函数，但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。

线性 RNN 模型

线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作，以线性时间复杂度提供了序列建模的新解决方案。

然而，它们可能缺乏复杂序列建模任务所需的适应性和动态特性，并且像传统序列模型一样，缺少反馈机制和自适应控制。

MoE 模型

MoE 模型通过结合专家模块，能有效处理长序列并保持计算效率，根据输入数据自适应选择专家模块。

但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题，部分参数不常使用降低参数效率，在处理长序列时可能在计算效率和训练稳定性方面面临挑战，且对动态变化适应性不足。

二、MixCon 的核心架构与技术

Conba 模型架构

1. 状态空间方程

3. 实施细节

神经网络近似：

ttps://mmbiz.qpic.cn/sz_mmbiz_jpg/KmXPKA19gWicCubV8fzKYak2BsL3ArAgOiaKRLRicHUicxH7XQAKW6PoPibTh9wj4Ev7vgR4MlakNGwANIqgRHPcibXA/0?wx_fmt=jpeg

推荐体验

相关资讯

顶会新热点！斯坦福全新架构TTT干翻Mamba和Transformer！

来源：3D视觉工坊添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！0. 这篇文章干了啥？2020年，OpenAI的扩展定律论文（Kaplan等人）表明，LSTM（一种RNN）无法像Transformer那样进行扩展，也无法有效地利用长

斯坦福 OpenAI

3D视觉工坊 2024-07-27

秒懂元字宙小知识——ChatGPT与元字宙

尽管目前尚未有人能给出元宇宙的准确定义。ChatGPT与元宇宙具有很多共同性，都需要强大的数据、算力和算法支撑，人工智能技术有利于元宇宙更好地促进人与人之间、人与机器之间、机器与机器之间的交互。智能化供应链管…

ChatGPT 元宇宙人工智能

时空元宇宙 2023-08-10

北大林毅夫：也许以后我们一周只工作一天，一天工作5小时

博鳌亚洲论坛进行中，论坛期间，北京大学新结构经济学研究院院长林毅夫在《世界经济展望》分会场谈及亚洲的数字化转型话题。谈话中，他畅想ChatGPT等变革性技术对未来的影响：“也许以后我们一周就做一天的工作，一天工作5小时，所以我们要拥抱这样的机会。”

金融界 2023-03-30

【花师小哲】鉴定网络热门（？）AI（26）——Mamba：被拒稿的黑马，优美的网络架构

今天终于有点时间来看看Mamba的论文了。我在之前一些专栏中也提到过这个模型，不过一直没时间来看。可能非AI行业的朋友都不知道这个模型，相比于Sora之类的，Mamba确实没有那么出圈，但不能说这个模型不重要。我看不少业界大佬都表扬过这个模型，一些大佬还指出Mamba的论文写的非常漂亮，包括现在已经有很多方法在使用Mamba做事情了。但是很可惜的是，这篇文章被ICLR给拒稿了。作为专业性比较强的一篇论文，这里不深入讲解Mamba的细节设计，一方面是这个系列的目的还是给大众科普的，另一方面是我也没吃透，虽然

花师小哲-中二 2024-03-01

CLIP还能再战！结合Mamba超越传统，仅用1/5参数就达到天花板性能

CLIP是由OpenAI开发的多模态预训练模型，具有非常强的泛化能力、高效性和灵活性。目前关于CLIP的研究主要是将它与其他技术结合，以实现更复杂的多模态任务。这种策略不仅可以很大程度上提升模型的性能，还给我们提供了更大的创新空间，很多研究也已经在多个领域获得了显著的成效。比如首次提出的CLIP-Mamba模型，仅用1/5参数就达到ViT天花板性能；还有北大最新的CLIP-GS，在实时渲染速度和分割精度方面实现SOTA效果。为帮助同学们了解最新动态，这次我整理了12个最新的CLIP结合创新方案，基本都有开

深度之眼官方账号 2024-07-19

近期资讯

华为云CodeArts三次蝉联DevOps平台领导者！

近日，全球领先的IT市场研究和咨询公司IDC发布了最新的《IDCMarketScape:中国DevOps平台2024年厂商评估》报告。全场景质量效率提升：全球领先编译构建加速技术，让构建速度10倍加速，亿级代码1小时全量构建完成；并且满足千万级高并发性能压测，全链路瓶颈分析能力支撑测试周期由周级降低至小时级。

华为云 2024-10-14

【前沿】SU7单日交付量首次破1000台 | 小米汽车工厂可报名参观

如上图所见，雷军称10月13日是小米SU7系列首次单日交付量突破1000台，感谢相关人员。并再次表示：10月份生产、交付目标是突破2万台。按照之前消息，10月小米汽车工厂将持续提产中，不仅单月生产目标是冲刺2万台，还预计11月提前完成全年10万台交付目标。

小白测评 2024-10-14

iPhone 16 Pro被曝不能连接华强北耳机苹果客服回应

10月14日，近日社交媒体上有网友爆料称，刚换了iPhone16Pro，发现自己的华强北耳机连接不上，而之前一直在iPhone12上连接是正常的。针对iPhone16Pro不能连接华强北耳机的爆料，凤凰网科技以消费者的身份咨询苹果官方客服，客服称，可能是耳机固件版本跟iOS18系统不适配，跟手机型号没有关系，可以联系华强北那边升级固件。

和讯网 2024-10-14

vivo X200系列首发LYT-818传感器！拍照媲美一英寸大底

快科技10月14日消息，vivoX200系列今晚正式发布，新机在影像上再次升级，首发多款影像传感器。“据介绍，vivo蓝图联合索尼推出LYT-818传感器，采用22nm制程，5000万像素，1/1.28”大底，f/1.57，支持OIS以及行业最强CIPA4.5专业级防抖，宣称“拍照比肩一英寸，视频超越一英寸”。

快科技 2024-10-14

北大团队打造数据流架构，解决视觉Transformer加速难题

近日，他和北京大学集成电路学院王源教授及团队设计出一款面向Transformer模型的高效数据流架构——HG-PIPE，并在可编程阵列逻辑（FPGA，FieldProgrammableGateArray）平台上完成了实时展示。

DeepTech深科技 2024-10-14

持续推进重点领域节能降碳提升高质量发展“含绿量”

优化产业结构、加快能源绿色转型、持续改善生态环境……近年来，我国不断健全绿色低碳发展机制，持续推进工业、建筑、交通运输等重点领域节能降碳，着力推动减污降碳协同增效，发展的“含绿量”明显增加。近日，全球最新一批“灯塔工厂”名单发布，在新增的22家制造企业中，中国企业的占比达到近60%，创历史新高。

金台资讯 2024-10-14

锐评 | 栽赃嫁祸？抓了个“现行”！

继4月15日和7月8日之后，国家计算机病毒应急处理中心等部门日前再度发布“伏特台风”调查报告，持续揭露美国网络间谍和虚假信息行动。去年5月，美国宣称“有中国政府支持背景”的“伏特台风”黑客在美国关键基础设施内部潜藏5年，“五眼联盟”各国网络安全部门紧随其后大肆炒作。

北京日报 2024-10-14

科文相融新智相生丨到新华社展厅沉浸式体验“抵达太空”

10月14日的2024中国新媒体技术展上，新华社展厅前始终人头攒动，其展出的“数字月球”和“数字屈原”两款产品引来大量游客围观。

红网 2024-10-14

史上最强2K直屏上架！iQOO 13蓄势待发

快科技10月14日消息，iQOO预告iQOO13将于10月底发布，新品已在电商平台上架接受预约，最关键的发布时间尚未官宣。博主数码闲聊站暗示，iQOO13会在10月30日登场，与荣耀Magic7系列发布时间是同一天。

驱动之家 2024-10-14

荣耀赵明：企业家要思考如何帮助个体在AI代能更加强大

10月14日消息，荣耀终端有限公司CEO赵明在谈到对大模型的展望时表示，AI会变得越来越强大，但也要思考一下，在AI的滚滚向前发展的过程当中，个体如何自处。“作为企业家，如何帮助个体在AI的时代能够更加的强大？这就涉及到个人的隐私，个人对于纷繁复杂的AI的应用如何进行选择。”赵明说。

鞭牛士 2024-10-14

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1