让机器学会「看重点」：这个系列要讲什么

这是一个关于”如何让机器处理语言”的故事。从 2014 年一个简单的直觉，到 2025 年我们正在重新思考一切——这条路上的每一步，都值得细细讲述。

从一个荒谬的限制说起

假设你要做同声传译。但有一条奇怪的规矩：在开始翻译之前，你必须把对方说的所有话压缩成一张便签纸，然后只能看着便签纸工作。

“你好” → 没问题，便签纸够用。

一段 5 分钟的演讲 → 这就荒谬了。你怎么可能把那么多信息塞进一张小纸条里？

但在 2014 年之前，这就是最先进的机器翻译在做的事。

当时的方法叫 Seq2seq（序列到序列模型）。一个叫”编码器”的网络从头到尾读完输入句子，把所有信息压缩成一个固定长度的数字向量（比如 256 个数字），然后另一个叫”解码器”的网络从这个向量出发，逐词生成翻译。

固定长度。不管输入是 3 个词还是 300 个词，都塞进同样大小的向量。

结果可想而知：短句翻译得不错，长句一塌糊涂。信息装不下就会丢，而且无法选择丢什么——一视同仁地全部打折。

2014 年，有人提出了一个简单到令人拍案叫绝的改进：

翻译每个词的时候，为什么不让模型回头看看原文，自己决定该看哪里？

这就是 Attention（注意力）机制的核心想法。

回到同声传译的比喻：你不再需要那张便签纸了。原文就摊在你面前，翻译每个词时，你的眼睛可以自由地在原文上移动，停留在最相关的部分。翻译”猫”时，你看向原文中 “cat” 的位置；翻译”桌子”时，你看向 “table”。

每一步关注不同的位置。动态的、自适应的。

这个想法有效得超出预期——不仅翻译质量大幅提升，而且研究者突然可以”看到”模型在想什么了（通过可视化注意力权重）。过去的模型是纯黑箱，现在你能看见它翻译时”眼睛看向哪里”。

三年后的 2017 年，一篇论文把这个想法推到了极致：如果 Attention 这么好用，那我们只用 Attention，把其他所有东西都扔掉呢？

这篇论文的标题就是它的态度：”Attention Is All You Need”（你只需要 Attention）。

它提出的架构叫 Transformer。这个名字今天已经无处不在——GPT 里的 T，BERT 里的 T，几乎所有大语言模型的基础，都是它。

从那以后，AI 领域经历了一场史无前例的爆发：

这是一个 8 篇文章的系列。我的目标是让你真正理解这些技术——不是知道名字，而是理解为什么它们存在，它们的核心想法是什么，以及各自解决了什么问题。

不需要你有机器学习背景。需要的是好奇心，以及愿意跟着思考的耐心。

路线图：

每篇文章都可以独立阅读，但按顺序读会有更流畅的体验。

在这趟旅程的终点，你会看到一个令人惊讶的结论：2024 年的数学证明表明，那些号称要”取代 Attention”的新架构，和 Attention 本身其实是同一个东西的不同写法。

它们争吵了好几年，最后发现是一家人。

但这个结论的意义，以及它对 AI 未来意味着什么，要到最后一篇才能完全展开。

让我们从最开始讲起。