Attention 的挑战者们：Mamba、RWKV 与线性复杂度革命

如果 Attention 有一个致命弱点，那就是它处理信息的方式太”奢侈”了——每对词都要互相看一眼。当文本长到一百万个词时，这种奢侈变成了不可能。有没有更经济的方式？

重新思考”记忆”

让我们回到一个基本问题：处理一段文本时，模型真的需要同时看到所有词之间的关系吗？

想想你自己是怎么阅读的。你读一本 300 页的书时，并不是每读一个字就回头和前面所有字做一次配对检查。你维护着一个不断更新的理解——一种压缩的、流动的记忆。新信息进来时，有些被记住，有些被遗忘，理解不断演化。

Attention 的方式是：每一步都把全文摊开看一遍。很彻底，但代价是 $O(n^2)$。

有没有可能像人脑一样，维护一个固定大小的记忆状态，每读一个新词就更新一下？这样复杂度就是 $O(n)$——线性的，和序列长度成正比。

这正是 RNN（循环神经网络）做的事——但 RNN 在 2017 年被 Transformer 取代了，因为它：

不能并行训练（必须一步一步来）
记忆能力有限（远处的信息会衰减）

2023-2024 年的新架构试图解决这两个问题，同时保持线性复杂度。

Mamba：可选择性地记忆 (2023)

Albert Gu 和 Tri Dao 提出的 Mamba 基于一个叫”状态空间模型”（SSM）的数学框架。但别被名字吓到，核心想法很直觉：

维护一个固定大小的”状态”（你可以理解为一块白板）。每读入一个新词：

部分擦除白板上的旧内容（遗忘）
把新信息写上去（记忆）
从白板上读取当前需要的信息（输出）

关键创新是 selective mechanism：擦除多少、写入多少——这些参数不再是固定的，而是取决于当前输入。

看到一个重要信息（比如人名、关键事实）→ 多写入，少擦除。看到一个不重要的词（比如”的”、”了”）→ 少写入，多擦除。

这就像一个有判断力的笔记员：重要的记详细，不重要的一笔带过。而不是像 Attention 那样不管重不重要都全部记录。

推理时的巨大优势：Mamba 每处理一个新 token 的成本是恒定的 $O(1)$。不需要 KV cache，不随序列增长。处理第 1 个 token 和第 100 万个 token 的成本相同。

在语言建模上，Mamba 匹配甚至超过了同规模 Transformer 的性能。

一个惊人的发现：SSM = Attention (2024)

2024 年 5 月，Mamba 的两位作者发表了后续论文——Mamba-2。但真正的重磅不是性能提升，而是一个理论发现。

他们证明：Mamba 的状态空间计算，和 Attention 的计算，是同一个数学结构的两种写法。

这叫 State Space Duality（状态空间对偶性）。

通俗地说：Attention 的公式可以写成一种特殊的状态空间模型。反过来，状态空间模型也可以写成一种带特殊掩码的 Attention。它们不是两种根本不同的东西——只是在同一个连续谱上的两个点。

这个发现的实际意义是：Mamba-2 可以利用 GPU 上擅长矩阵乘法的硬件（tensor cores）来加速，比 Mamba-1 快 2-8 倍。同时状态维度可以从 16 扩大到 64-256，大幅提升记忆容量。

但更深刻的意义是哲学上的：过去几年”SSM vs Attention”的争论，本质上是同一种计算的不同折衷——Attention 选择”精确但昂贵”（保留所有信息），SSM 选择”压缩但高效”（固定大小状态）。

RWKV：让 RNN 重获新生

RWKV 的目标更直接：做一个既能像 Transformer 一样并行训练，又能像 RNN 一样线性推理的模型。

它的名字来自四个核心操作：Receptance、Weight、Key、Value。本质上是一种精心设计的线性循环：

训练时：展开成类似 Attention 的并行形式（可以利用 GPU）
推理时：折叠回 RNN 形式（每步 $O(1)$，不需要 KV cache）

RWKV v5（Eagle）的创新是把”记忆”从一个向量升级为一个矩阵——存储容量大幅增加。v6（Finch）让记忆的遗忘速度不再固定，而是随输入内容动态调整。

7B 参数的 RWKV 在多语言基准上与同规模 Transformer 竞争力相当——但推理时内存恒定，不管处理多长的文本。

xLSTM：LSTM 发明者的回归

LSTM（长短期记忆网络）是 1997 年 Sepp Hochreiter 提出的——它统治了 NLP 近 20 年，直到被 Transformer 取代。

2024 年，Hochreiter 本人带队发布了 xLSTM（扩展 LSTM）。核心改进：

指数门控：原来的 sigmoid 门（值在 0-1 之间）换成指数函数（值可以非常大）。这让”记住”和”遗忘”的信号更加鲜明，梯度流动更顺畅。
矩阵记忆：传统 LSTM 每个单元只存一个数字。xLSTM 的 mLSTM 变体让每个单元存一个矩阵——存储能力从”一个数字”变成”一整页笔记”。

有趣的是，mLSTM 的更新公式和 linear attention（线性注意力）几乎一模一样——又一个”殊途同归”的证据。

TTT：最激进的想法

如果说 Mamba 是”有判断力的笔记员”，那 Test-Time Training (TTT) 就是”一个自我进化的学生”。

TTT 的核心想法：模型的”记忆状态”不是一个被动的向量或矩阵——它本身就是一个小型神经网络。每读入一个新 token，就对这个内部网络做一步梯度下降训练。

换句话说：模型在推理的同时在”学习”。读到越多上下文，内部网络就变得越善于处理当前文本。

这个想法之所以激进，是因为它打破了”训练”和”推理”的传统边界——推理本身就是一种训练。

效果：在非常长的上下文（>8K tokens）上，TTT-MLP 超越了 Mamba。而且优势随序列长度增大而增大——因为内部网络有越多数据可以学习。

混合才是答案

2024 年的实验反复证明了一件事：纯 Attention 和纯 SSM 都不是最优解。

纯 SSM（Mamba、RWKV）在一类任务上持续弱于 Transformer：精确回忆。比如”第 3 段的第 2 句话说了什么？”——这需要从固定大小的压缩状态中精确还原特定位置的信息，而压缩天然是有损的。

但处理长文本的”大局理解”——总结、推理、情感分析——SSM 表现很好，而且快得多。

于是混合架构成为了 2024 年的主旋律：

Jamba：每 8 层中 7 层用 Mamba，1 层用 Attention。约 15% 是 Attention。
Zamba：整个模型只有一个共享的 Attention 模块，每 6 层 Mamba 复用一次。

flowchart LR
    subgraph Jamba["Jamba 重复单元"]
        direction LR
        M1["🟢Mamba"] --> M2["🟢Mamba"] --> M3["🟢Mamba"] --> M4["🟢Mamba"] --> M5["🟢Mamba"] --> M6["🟢Mamba"] --> M7["🟢Mamba"] --> A["🔵Attention<br/>+MoE"]
    end
    A -->|"循环"| M1

这些混合模型的性能匹配纯 Transformer，但长序列效率好得多。

核心洞察：Attention 擅长精确检索，SSM 擅长高效流式处理。 最优系统把两者结合——在需要精确回忆的地方用少量 Attention，其余用高效的线性层。

统一视角：2024 年我们学到了什么

2024 年最深刻的认识不是”谁比谁强”，而是”它们本是一家”：

Mamba-2 SSD：SSM = 结构化掩码 Attention
GLA（Gated Linear Attention）：统一了 Mamba、RWKV、Linear Attention 为同一框架的不同实例
DeltaNet：相当于对记忆做在线梯度下降
TTT：本质上也是一种学习率可变的线性注意力

这些架构看似不同，实则都在回答同一个问题：怎么在”记忆精度”和”计算效率”之间做最佳取舍？

Attention 选择”精度最大化”→ $O(n^2)$
Linear Attention 选择”效率最大化”→ $O(n)$ 但精度差
Mamba/GLA/RWKV 在中间找平衡点——用数据依赖的门控来动态调节

未来：三个未解之谜

1. 推理能力的天花板在哪？

数学已经证明：固定深度的 Transformer 能力有限（TC⁰ 电路复杂度）。Chain-of-thought 是补丁而非根治——它通过延长输出来绕过深度限制。

真正的解可能是”潜在空间推理”——在模型内部循环计算，不必生成文本。Meta 的 Coconut 和 Google 的 Titans 在探索这条路。

2. 幻觉能被消除吗？

2025 年 OpenAI 的数学证明表明：不能。幻觉是自回归生成的固有性质——统计模型不可避免地会产生统计上合理但事实上错误的输出。

这意味着”验证”必须作为独立模块存在——不能只靠生成模型自己检查自己。RAG（检索增强）、专门的验证模型、让模型学会说”我不确定”——这些是结构性必要的。

3. 最终架构长什么样？

基于 2024-2025 年的趋势，一个合理的预测是：

未来的模型不会只用一种机制。 它会像人脑一样，对不同类型的信息使用不同的处理策略：

少量 Attention 层做精确检索（”这段话具体说了什么？”）
大量线性/SSM 层做高效流式处理（”整篇文章的要点是什么？”）
MoE 让不同 token 走不同路径（”这个词需要什么专业知识？”）
动态计算让难题获得更多思考时间（”这个推理需要多少步？”）

不是”一种计算适用所有情况”，而是”不同情况用不同计算”——自适应、混合、动态。

系列回顾

走到这里，让我们回顾整趟旅程：

2014：一个简单的想法——让模型翻译时回头看原文——解决了信息瓶颈。 2017：把这个想法推到极致——只用 Attention，抛弃一切——创造了 Transformer。 2018-2020：Transformer 成为万能框架，规模带来涌现能力。 2021-2023：位置编码、FlashAttention、MoE——在 Attention 内部做到极致优化。 2024-2025：挑战者证明 Attention 不是唯一选择，然后数学证明它们本是一家人。

最终的认识是：没有”最好”的架构，只有”最合适”的组合。 Attention——这个 2014 年诞生的简单想法——不会消失，但会从”唯一主角”变为”关键配角之一”，在更大的混合系统中扮演不可替代但非垄断性的角色。

这不是一个结局，而是新篇章的开始。序列建模的统一理论正在成形。而它的故事，还远没有讲完。