非Transformer架构新模型爆火，从第一性原理出发，MIT CSAIL衍生团队打造

作者：量子位发布时间：2024-10-01

西风发自凹非寺

量子位 | 公众号 QbitAI

挑战Transformer，MIT初创团队推出 LFM（LiquidFoundationModel）新架构模型爆火。

LFM 1.3B、 LFM 3B两个不同大小的模型，性能超越同等规模Llama3.2等Transformer模型。

LFM架构还有很好的可扩展性，团队还推出了 基于MoE的LFM 40B（激活12B参数），能与更大规模的密集模型或MoE模型相媲美。

LFM用的是一种 液态神经网络（LNN），从 第一性原理出发而构建，其计算单元植根于动态系统理论、信号处理和数值线性代数。

这种架构还有一个特点：在 内存效率方面特别强。

基于Transformer的LLM中的KV缓存在长上下文中会急剧增长，而LFM即使在处理100万个token时也能保持内存最小。

小巧便携，使得它能够直接部署在手机上进行文档和书籍等分析。

LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队，名叫 Liquid AI。

其后训练负责人Maxime Labonne在X上为自家模型疯狂打Call：

这三个具有SOTA性能的模型，是我职业生涯中最值得骄傲的版本。

AI畅销书《人工直觉》作者也表示看好。

一直等的就是这样的模型，基于物理学或神经元的“第一性原理”

目前LFM系列模型还在预览测试中，大伙儿可通过Liquid官方平台、Lambda Chat、Perplexity AI来访问。

基于液态神经网络打造

具体来看看这三个模型的性能和特点。

LFM 1.3B在MMLU、MMLU-Pro、ARC-C、GSM8K基准上相较于下表其它模型，取得SOTA性能。

LFM 3B，还能和Mistral 7B、Llama3.1 8B两倍大模型打得有来有回。

LFM 40B性能也可与比其自身更大的模型相媲美，MoE架构可实现更高吞吐可部署在更具成本效益的硬件上。

与Transformer架构相比，LFM的一个突出优势就是内存占用更少。

对于长输入效果更明显，基于Transformer的LLM中的KV缓存随着序列长度线性增长。通过有效压缩输入，LFM可以在同一硬件上处理更长的序列。

以下是LFM 3B与其它3B级模型的对比，LFM 3B能始终保持较小的内存占用。

处理100万个token， LFM 3B只需16 GB内存，而Llama-3.2-3B模型则需48 GB+。

LFM上下文有效长度为 32k。

当相应得分高于85.6时，长度被认为是“有效的” （Hsieh等人，2024 RULER）。

LFM 3B在32k的上下文长度上，仍能保持 89.5的高分。

实验结果中Llama 3.2生成128k上下文窗口，但实际只在4k上有效，也引起一波关注。

除此之外，LFM由结构化运算符组成，为基础模型打开了一个新的设计空间。

不仅限于语言， 还可以将其应用于音频、时间序列、图像等等其它模态。

还具有高适应性，可针对特定平台（如苹果、高通、Cerebras、AMD）优化架构，或匹配给定的参数要求和推理缓存大小。

Liquid AI团队直接把目前LFM模型的优缺点都一一列了出来。

现在LFM语言模型擅长通用和专业知识、数学和逻辑推理、长上下文任务。

主要语言是英语，还支持西班牙语、法语、德语、中文、阿拉伯语、日语和韩语。

但LFM语言模型不擅长零样本代码任务、精确的数值计算、时效性信息，人类偏好优化相关技术也尚未广泛应用。

有意思的是，Liquid AI团队还明确表示LFM现在 不会数“Strawberry”中“r”的数量。

经网友测试，它确实不会😂。

关于LFM架构更多技术细节，官方表示将持续发布技术Blog。

背后团队来自MIT CSAIL

下面简单介绍一下LFM模型背后团队——Liquid AI。

Liquid AI是一家从MIT计算机科学与人工智能实验室衍生出来的公司。

目标是在每一个规模上构建能力强大且高效的通用人工智能系统。

联合创始人共有四位。

CEO Ramin Hasani，MIT CSAIL人工智能科学家、前Vanguard Group首席人工智能和机器学习科学家。

博士论文研究主题就是关于液态神经网络（Liquid Neural Networks），由维也纳工业大学Radu Grosu教授和麻省理工学院Daniela Rus教授共同指导。

CTO Mathias Lechner，MIT CSAIL研究员。

维也纳工业大学计算机科学的学士、硕士学位，奥地利科学与技术研究所（ISTA）博士学位。

专注于开发稳健可信的机器学习模型。

首席科学官Alexander Amini，在MIT完成了计算机科学学士、硕士和博士学位，同时辅修数学。

研究的领域包括自主系统的端到端控制学习、神经网络的置信度公式化、人类移动性的数学建模以及复杂惯性精细化系统的构建。

另外一位联合创始人是 MIT CSAIL主任Daniela Rus，她还是MIT电气工程与计算机科学系的Andrew&Erna Viterbi教授。

Liquid AI成立初就致力于从第一性原理出发构建新一代基础模型，是一个基于深度信号处理和状态空间层扩展语言模型的团队。

之前研究有一箩筐：

感兴趣的的家人们可以自行查阅：

https://www.liquid.ai/blog/liquid-neural-networks-research

对新模型感兴趣的家人们可以测试起来了：

https://playground.liquid.ai/chat?model=cm1ooqdqo000208jx67z86ftk

参考链接：

[2]https://venturebeat.com/ai/mit-spinoff-liquid-debuts-non-transformer-ai-models-and-theyre-already-state-of-the-art/

— 完—

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里 👇关注我，记得标星哦～

科技前沿进展日日相见 ~

近期资讯

这位明代猛人，如何在贵州掀起一场扬名海外的“思想风暴”？

（全文共7004字，预计阅读时间12分钟）公元16世纪初，位于贵州腹地的龙场驿迎来几位远方来客，他们已经在路上跋涉数月，接下来要在这里羁留几年。为首的是新任龙场驿丞王守仁，可能他自己都未曾料到，一次思想风暴将在大明王朝的荒远角落发生，这次思想飞跃，不仅为宋明理学续写篇章，成为中国哲学史上绕不过去的重要节点，而且余波激荡，影响波及近世及海外。王守仁便是王阳明，这次思想风暴，被后人命名为“龙场悟道”。向死而生王阳明如何在贵州“龙场悟道”？漫长旅行换来的并不是舒泰的终点，赫赫有名的“龙场九驿”之首，竟然连一座像

地道风物 2024-09-27

诚诺科技 2024-09-27

成体考研预报名越来越近，这些事千万别焦虑！

成体学哥成体考研资料库#成体考研 #成都体育学院 #成都体育学院考研 #考研攻略 #体育考研预报名马上就到了，大家是不是开始紧张了？其实，完全没必要为这些事情焦虑，尤其是以下5点：01、不用担心报不上名预报名并不是必须参加，但建议参加，因为它能让你提前选好考点，避免正式报名时网络拥堵。而且预报名与正式报名具有同样的效力。唯一要注意的是，预报名后学校和考点无法直接修改，需取消原报名再重新报，这可能会影响考点选择。所以提前确定好目标院校，避免来回更改。02、报名流程不必担心报名流程其实很简单，每年研招网都会

成体学哥体育考研 2024-09-27

高中地理“课本基础知识整理学渣三年看这一份就够了!

地理是一门需要记忆积累的科目，在高中阶段，难度则是质一样的提升，并且重点比较多，考法多变，所以很多同学在学习地理的时候是非常的吃力。很多同学们因为地理知识点记不住，丢分严重的情况非常多。把重点地理知识归纳好之后，一定也要有自己的记忆方法和技巧。这样才能帮助你事半功倍地去学习今天学姐给大家整理了高中地理课本基础知识整理，掌握好这些知识点，相信地理都能拿到高分！！ [图片] [图片] [图片] [图片] [图片] [图片]

UU学姐带你上岸 2024-09-27

答应我，看完再做ELISA（下）

小伙伴们在上篇学习了ELISA实验的原理、类型，并且根据自己的需求选择了适合自己的试剂盒，那接下来就是ELISA的实操了，包括哪些实验步骤和注意事项呢？快来和小爱一探究竟吧！ ELISA实验步骤 [图片] 图1 ELISA标准实验流程 1、样本采集： a）血浆：采集血浆时可使用EDTA、肝素或柠檬酸盐作为抗凝血剂。采集后30min内，1000xg离心15min。立即检测或分装后于≤-20℃储存。避免反复冻融。 b）细胞培养上清液：通过离心去除颗粒，立即检测或分装后将样品于≤-20°C储存。避免反复

爱必信_absin 2024-09-27

非Transformer架构新模型爆火，从第一性原理出发，MIT CSAIL衍生团队打造

推荐体验

相关资讯

大模型的“第一性原理”：技术创新与社会价值的接轨

圆桌论坛：ChatGPT的第一性原理：通往AGI的路上还有哪些系统性机会？ | WISE2023颠覆AIGC产业发展峰会

在Transformer时代重塑RNN，RWKV将非Transformer架构扩展到数百亿参数

ChatGPT和谷歌搜索不必二选一，爆火开源插件神器，中国团队打造

爆火的OpenAI-Sora运作原理

近期资讯

这位明代猛人，如何在贵州掀起一场扬名海外的“思想风暴”？

Knewstar——吉利的船新新新的品牌

【拒绝付费】121页初中英语学霸笔记网盘下载

GFG 52 Geek and String

岗位安全达标工作汇报课件【文档编号：335805】

安卓端手机实时翻译软件屏幕翻译 v2.4.7 特别版

295块！大量全新HTC 8S原封手机涌向闲鱼网友：满满的回忆

成体考研预报名越来越近，这些事千万别焦虑！

高中地理“课本基础知识整理学渣三年看这一份就够了!

答应我，看完再做ELISA（下）

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响