Deep Research Archive

穷尽式深度研究，以教学系列文章的形式呈现。
每个系列从零开始讲透一个领域。

理解 Attention 与 Transformer

8 篇系列教程 · 从 2014 年 Attention 的诞生到 2025 年的架构大融合

为什么你应该了解 Attention 机制？这个系列将从最朴素的问题出发，带你走完整条技术演进之路。

Attention 机制是怎么被发明的？它到底在做什么？用最直觉的方式理解这个改变 AI 历史的想法。

2017 年，Google 的研究者们把 RNN 和 CNN 全部扔掉，只保留 Attention。这个疯狂的决定为什么奏效了？

Self-attention 天生不知道「前后顺序」。为了让模型理解「猫追狗」和「狗追猫」的区别，研究者们想了很多办法——而且到今天还在想。

Attention 的计算量随序列长度平方增长。当我们想让模型处理一整本书时，这个平方成了不可承受之重。工程师和研究者们怎么破局？

同一个 Transformer 积木，搭成了截然不同的模型。BERT 理解语言，GPT 生成语言，MoE 让模型变大但不变慢。三种哲学，一个框架。

语言模型的进步居然遵循物理定律般的规律。而让强大的模型'听话'，从复杂的 RLHF 到一行公式的 DPO——对齐技术也在飞速简化。

Attention 的 O(n²) 复杂度是它的阿喀琉斯之踵。2023-2025 年，一批新架构试图用线性复杂度替代它——然后人们发现，它们和 Attention 竟然是同一个东西。