Deep Research Archive
穷尽式深度研究,以教学系列文章的形式呈现。
每个系列从零开始讲透一个领域。
理解 Attention 与 Transformer
8 篇系列教程 · 从 2014 年 Attention 的诞生到 2025 年的架构大融合
1
→
2
→
3
→
4
→
5
→
6
→
7
→
8
→
让机器学会「看重点」:这个系列要讲什么
为什么你应该了解 Attention 机制?这个系列将从最朴素的问题出发,带你走完整条技术演进之路。
从「一张便签纸」到「随时翻阅全文」:Attention 的诞生
Attention 机制是怎么被发明的?它到底在做什么?用最直觉的方式理解这个改变 AI 历史的想法。
Attention Is All You Need:一篇论文如何改变了整个 AI
2017 年,Google 的研究者们把 RNN 和 CNN 全部扔掉,只保留 Attention。这个疯狂的决定为什么奏效了?
模型怎么知道词的顺序?位置编码的难题
Self-attention 天生不知道「前后顺序」。为了让模型理解「猫追狗」和「狗追猫」的区别,研究者们想了很多办法——而且到今天还在想。
当序列长到装不下:高效 Attention 的效率战争
Attention 的计算量随序列长度平方增长。当我们想让模型处理一整本书时,这个平方成了不可承受之重。工程师和研究者们怎么破局?
BERT vs GPT,以及「用稀疏换效率」的 MoE
同一个 Transformer 积木,搭成了截然不同的模型。BERT 理解语言,GPT 生成语言,MoE 让模型变大但不变慢。三种哲学,一个框架。
Scaling Laws 与对齐:AI 进步可以被预测吗?
语言模型的进步居然遵循物理定律般的规律。而让强大的模型'听话',从复杂的 RLHF 到一行公式的 DPO——对齐技术也在飞速简化。
Attention 的挑战者们:Mamba、RWKV 与线性复杂度革命
Attention 的 O(n²) 复杂度是它的阿喀琉斯之踵。2023-2025 年,一批新架构试图用线性复杂度替代它——然后人们发现,它们和 Attention 竟然是同一个东西。