Attention 的挑战者们:Mamba、RWKV 与线性复杂度革命
如果 Attention 有一个致命弱点,那就是它处理信息的方式太”奢侈”了——每对词都要互相看一眼。当文本长到一百万个词时,这种奢侈变成了不可能。有没有更经济的方式?
重新思考”记忆”
让我们回到一个基本问题:处理一段文本时,模型真的需要同时看到所有词之间的关系吗?
想想你自己是怎么阅读的。你读一本 300 页的书时,并不是每读一个字就回头和前面所有字做一次配对检查。你维护着一个不断更新的理解——一种压缩的、流动的记忆。新信息进来时,有些被记住,有些被遗忘,理解不断演化。
Attention 的方式是:每一步都把全文摊开看一遍。很彻底,但代价是 $O(n^2)$。
有没有可能像人脑一样,维护一个固定大小的记忆状态,每读一个新词就更新一下?这样复杂度就是 $O(n)$——线性的,和序列长度成正比。
这正是 RNN(循环神经网络)做的事——但 RNN 在 2017 年被 Transformer 取代了,因为它:
- 不能并行训练(必须一步一步来)
- 记忆能力有限(远处的信息会衰减)
2023-2024 年的新架构试图解决这两个问题,同时保持线性复杂度。
Mamba:可选择性地记忆 (2023)
Albert Gu 和 Tri Dao 提出的 Mamba 基于一个叫”状态空间模型”(SSM)的数学框架。但别被名字吓到,核心想法很直觉:
维护一个固定大小的”状态”(你可以理解为一块白板)。每读入一个新词:
- 部分擦除白板上的旧内容(遗忘)
- 把新信息写上去(记忆)
- 从白板上读取当前需要的信息(输出)
关键创新是 selective mechanism:擦除多少、写入多少——这些参数不再是固定的,而是取决于当前输入。
看到一个重要信息(比如人名、关键事实)→ 多写入,少擦除。 看到一个不重要的词(比如”的”、”了”)→ 少写入,多擦除。
这就像一个有判断力的笔记员:重要的记详细,不重要的一笔带过。而不是像 Attention 那样不管重不重要都全部记录。
推理时的巨大优势:Mamba 每处理一个新 token 的成本是恒定的 $O(1)$。不需要 KV cache,不随序列增长。处理第 1 个 token 和第 100 万个 token 的成本相同。
在语言建模上,Mamba 匹配甚至超过了同规模 Transformer 的性能。
一个惊人的发现:SSM = Attention (2024)
2024 年 5 月,Mamba 的两位作者发表了后续论文——Mamba-2。但真正的重磅不是性能提升,而是一个理论发现。
他们证明:Mamba 的状态空间计算,和 Attention 的计算,是同一个数学结构的两种写法。
这叫 State Space Duality(状态空间对偶性)。
通俗地说:Attention 的公式可以写成一种特殊的状态空间模型。反过来,状态空间模型也可以写成一种带特殊掩码的 Attention。它们不是两种根本不同的东西——只是在同一个连续谱上的两个点。
这个发现的实际意义是:Mamba-2 可以利用 GPU 上擅长矩阵乘法的硬件(tensor cores)来加速,比 Mamba-1 快 2-8 倍。同时状态维度可以从 16 扩大到 64-256,大幅提升记忆容量。
但更深刻的意义是哲学上的:过去几年”SSM vs Attention”的争论,本质上是同一种计算的不同折衷——Attention 选择”精确但昂贵”(保留所有信息),SSM 选择”压缩但高效”(固定大小状态)。
RWKV:让 RNN 重获新生
RWKV 的目标更直接:做一个既能像 Transformer 一样并行训练,又能像 RNN 一样线性推理的模型。
它的名字来自四个核心操作:Receptance、Weight、Key、Value。本质上是一种精心设计的线性循环:
- 训练时:展开成类似 Attention 的并行形式(可以利用 GPU)
- 推理时:折叠回 RNN 形式(每步 $O(1)$,不需要 KV cache)
RWKV v5(Eagle)的创新是把”记忆”从一个向量升级为一个矩阵——存储容量大幅增加。v6(Finch)让记忆的遗忘速度不再固定,而是随输入内容动态调整。
7B 参数的 RWKV 在多语言基准上与同规模 Transformer 竞争力相当——但推理时内存恒定,不管处理多长的文本。
xLSTM:LSTM 发明者的回归
LSTM(长短期记忆网络)是 1997 年 Sepp Hochreiter 提出的——它统治了 NLP 近 20 年,直到被 Transformer 取代。
2024 年,Hochreiter 本人带队发布了 xLSTM(扩展 LSTM)。核心改进:
-
指数门控:原来的 sigmoid 门(值在 0-1 之间)换成指数函数(值可以非常大)。这让”记住”和”遗忘”的信号更加鲜明,梯度流动更顺畅。
-
矩阵记忆:传统 LSTM 每个单元只存一个数字。xLSTM 的 mLSTM 变体让每个单元存一个矩阵——存储能力从”一个数字”变成”一整页笔记”。
有趣的是,mLSTM 的更新公式和 linear attention(线性注意力)几乎一模一样——又一个”殊途同归”的证据。
TTT:最激进的想法
如果说 Mamba 是”有判断力的笔记员”,那 Test-Time Training (TTT) 就是”一个自我进化的学生”。
TTT 的核心想法:模型的”记忆状态”不是一个被动的向量或矩阵——它本身就是一个小型神经网络。每读入一个新 token,就对这个内部网络做一步梯度下降训练。
换句话说:模型在推理的同时在”学习”。读到越多上下文,内部网络就变得越善于处理当前文本。
这个想法之所以激进,是因为它打破了”训练”和”推理”的传统边界——推理本身就是一种训练。
效果:在非常长的上下文(>8K tokens)上,TTT-MLP 超越了 Mamba。而且优势随序列长度增大而增大——因为内部网络有越多数据可以学习。
混合才是答案
2024 年的实验反复证明了一件事:纯 Attention 和纯 SSM 都不是最优解。
纯 SSM(Mamba、RWKV)在一类任务上持续弱于 Transformer:精确回忆。比如”第 3 段的第 2 句话说了什么?”——这需要从固定大小的压缩状态中精确还原特定位置的信息,而压缩天然是有损的。
但处理长文本的”大局理解”——总结、推理、情感分析——SSM 表现很好,而且快得多。
于是混合架构成为了 2024 年的主旋律:
- Jamba:每 8 层中 7 层用 Mamba,1 层用 Attention。约 15% 是 Attention。
- Zamba:整个模型只有一个共享的 Attention 模块,每 6 层 Mamba 复用一次。
flowchart LR
subgraph Jamba["Jamba 重复单元"]
direction LR
M1["🟢Mamba"] --> M2["🟢Mamba"] --> M3["🟢Mamba"] --> M4["🟢Mamba"] --> M5["🟢Mamba"] --> M6["🟢Mamba"] --> M7["🟢Mamba"] --> A["🔵Attention<br/>+MoE"]
end
A -->|"循环"| M1
这些混合模型的性能匹配纯 Transformer,但长序列效率好得多。
核心洞察:Attention 擅长精确检索,SSM 擅长高效流式处理。 最优系统把两者结合——在需要精确回忆的地方用少量 Attention,其余用高效的线性层。
统一视角:2024 年我们学到了什么
2024 年最深刻的认识不是”谁比谁强”,而是”它们本是一家”:
- Mamba-2 SSD:SSM = 结构化掩码 Attention
- GLA(Gated Linear Attention):统一了 Mamba、RWKV、Linear Attention 为同一框架的不同实例
- DeltaNet:相当于对记忆做在线梯度下降
- TTT:本质上也是一种学习率可变的线性注意力
这些架构看似不同,实则都在回答同一个问题:怎么在”记忆精度”和”计算效率”之间做最佳取舍?
- Attention 选择”精度最大化”→ $O(n^2)$
- Linear Attention 选择”效率最大化”→ $O(n)$ 但精度差
- Mamba/GLA/RWKV 在中间找平衡点——用数据依赖的门控来动态调节
未来:三个未解之谜
1. 推理能力的天花板在哪?
数学已经证明:固定深度的 Transformer 能力有限(TC⁰ 电路复杂度)。Chain-of-thought 是补丁而非根治——它通过延长输出来绕过深度限制。
真正的解可能是”潜在空间推理”——在模型内部循环计算,不必生成文本。Meta 的 Coconut 和 Google 的 Titans 在探索这条路。
2. 幻觉能被消除吗?
2025 年 OpenAI 的数学证明表明:不能。幻觉是自回归生成的固有性质——统计模型不可避免地会产生统计上合理但事实上错误的输出。
这意味着”验证”必须作为独立模块存在——不能只靠生成模型自己检查自己。RAG(检索增强)、专门的验证模型、让模型学会说”我不确定”——这些是结构性必要的。
3. 最终架构长什么样?
基于 2024-2025 年的趋势,一个合理的预测是:
未来的模型不会只用一种机制。 它会像人脑一样,对不同类型的信息使用不同的处理策略:
- 少量 Attention 层做精确检索(”这段话具体说了什么?”)
- 大量线性/SSM 层做高效流式处理(”整篇文章的要点是什么?”)
- MoE 让不同 token 走不同路径(”这个词需要什么专业知识?”)
- 动态计算让难题获得更多思考时间(”这个推理需要多少步?”)
不是”一种计算适用所有情况”,而是”不同情况用不同计算”——自适应、混合、动态。
系列回顾
走到这里,让我们回顾整趟旅程:
2014:一个简单的想法——让模型翻译时回头看原文——解决了信息瓶颈。 2017:把这个想法推到极致——只用 Attention,抛弃一切——创造了 Transformer。 2018-2020:Transformer 成为万能框架,规模带来涌现能力。 2021-2023:位置编码、FlashAttention、MoE——在 Attention 内部做到极致优化。 2024-2025:挑战者证明 Attention 不是唯一选择,然后数学证明它们本是一家人。
最终的认识是:没有”最好”的架构,只有”最合适”的组合。 Attention——这个 2014 年诞生的简单想法——不会消失,但会从”唯一主角”变为”关键配角之一”,在更大的混合系统中扮演不可替代但非垄断性的角色。
这不是一个结局,而是新篇章的开始。序列建模的统一理论正在成形。而它的故事,还远没有讲完。