让机器学会「看重点」:这个系列要讲什么
这是一个关于”如何让机器处理语言”的故事。从 2014 年一个简单的直觉,到 2025 年我们正在重新思考一切——这条路上的每一步,都值得细细讲述。
从一个荒谬的限制说起
假设你要做同声传译。但有一条奇怪的规矩:在开始翻译之前,你必须把对方说的所有话压缩成一张便签纸,然后只能看着便签纸工作。
“你好” → 没问题,便签纸够用。
一段 5 分钟的演讲 → 这就荒谬了。你怎么可能把那么多信息塞进一张小纸条里?
但在 2014 年之前,这就是最先进的机器翻译在做的事。
当时的方法叫 Seq2seq(序列到序列模型)。一个叫”编码器”的网络从头到尾读完输入句子,把所有信息压缩成一个固定长度的数字向量(比如 256 个数字),然后另一个叫”解码器”的网络从这个向量出发,逐词生成翻译。
固定长度。不管输入是 3 个词还是 300 个词,都塞进同样大小的向量。
结果可想而知:短句翻译得不错,长句一塌糊涂。信息装不下就会丢,而且无法选择丢什么——一视同仁地全部打折。
一个改变一切的想法
2014 年,有人提出了一个简单到令人拍案叫绝的改进:
翻译每个词的时候,为什么不让模型回头看看原文,自己决定该看哪里?
这就是 Attention(注意力)机制的核心想法。
回到同声传译的比喻:你不再需要那张便签纸了。原文就摊在你面前,翻译每个词时,你的眼睛可以自由地在原文上移动,停留在最相关的部分。翻译”猫”时,你看向原文中 “cat” 的位置;翻译”桌子”时,你看向 “table”。
每一步关注不同的位置。动态的、自适应的。
这个想法有效得超出预期——不仅翻译质量大幅提升,而且研究者突然可以”看到”模型在想什么了(通过可视化注意力权重)。过去的模型是纯黑箱,现在你能看见它翻译时”眼睛看向哪里”。
然后事情变得疯狂
三年后的 2017 年,一篇论文把这个想法推到了极致:如果 Attention 这么好用,那我们只用 Attention,把其他所有东西都扔掉呢?
这篇论文的标题就是它的态度:”Attention Is All You Need”(你只需要 Attention)。
它提出的架构叫 Transformer。这个名字今天已经无处不在——GPT 里的 T,BERT 里的 T,几乎所有大语言模型的基础,都是它。
从那以后,AI 领域经历了一场史无前例的爆发:
- 2018 年,BERT 证明了 Transformer 可以深度理解语言
- 2020 年,GPT-3 证明了足够大的 Transformer 会涌现出令人惊叹的能力
- 2022 年,ChatGPT 让全世界意识到这项技术的威力
- 2024-2025 年,研究者们开始问:Attention 真的是最优解吗?有没有更好的?
这个系列要带你去哪里
这是一个 8 篇文章的系列。我的目标是让你真正理解这些技术——不是知道名字,而是理解为什么它们存在,它们的核心想法是什么,以及各自解决了什么问题。
不需要你有机器学习背景。需要的是好奇心,以及愿意跟着思考的耐心。
路线图:
- 本篇 — 建立全局图景
- Attention 的诞生 — 2014-2016 年发生了什么,attention 到底在做什么
- Transformer 革命 — 2017 年的那篇论文为什么改变了一切
- 位置的难题 — 模型怎么知道词的顺序(比你想象的难得多)
- 效率战争 — 当序列变得很长很长,怎么让 Attention 不崩溃
- 架构变体与 MoE — BERT vs GPT,以及”用稀疏换效率”的 MoE
- 训练的艺术 — Scaling Laws、如何让模型听话(RLHF 到 DPO)
- 挑战者与未来 — Mamba、RWKV、xLSTM:Attention 还是最优解吗?
每篇文章都可以独立阅读,但按顺序读会有更流畅的体验。
一个预告
在这趟旅程的终点,你会看到一个令人惊讶的结论:2024 年的数学证明表明,那些号称要”取代 Attention”的新架构,和 Attention 本身其实是同一个东西的不同写法。
它们争吵了好几年,最后发现是一家人。
但这个结论的意义,以及它对 AI 未来意味着什么,要到最后一篇才能完全展开。
让我们从最开始讲起。