什么是 Multi-Head Attention（多头注意力机制）？

Question

Accepted Answer

多头注意力机制（Multi-Head Attention）是自然语言处理（NLP）和深度学习中，特别是 Transformer 架构里的核心组件。它首次在 2017 年的著名论文《Attention Is All You Need》中被提出。 简单来说，多头注意力机制是让模型“从多个不同的角度去观察和理解同一组信息”的一种方法。 为了让你彻底理解它，我们可以从一个通俗的比喻开始，然后再深入其工作原理。 --- 1. 通俗的比喻：盲人摸象 vs 专家团队 假设有一支句子：“苹果公司的 CEO 库克在加州吃了一个红色的苹果。” 如果你只用“单头”注意力（Single-Head Attention），就像是只让一个人去理解这句话。他可能会把注意力集中在“苹果公司”和“库克”的关系上，但可能会忽略句末的那个用来吃的“苹果”。 如果你使用“多头”注意力（Multi-Head Attention），就像是请了一个专家团队（比如 8 个人，即 8 个 Head）来共同分析这句话： 1 号专家（Head 1）：专门寻找语法关系（主谓宾），比如“库克”与“吃”的关系。 2 号专家（Head 2）：...