Go GC（垃圾回收）的工作原理

知识点图片

Go 语言（Golang）的垃圾回收（Garbage Collection，简称 GC）机制是其高性能并发特性的重要基石。Go 的 GC 经过多年的迭代（特别是从 1.5 版本到 1.8 版本），目前使用的是无分代（Non-generational）、不整理（Non-compacting）、并发（Concurrent）的三色标记清扫（Tri-color Mark and Sweep）算法。

核心目标是：极低的 STW（Stop The World）停顿时间。

以下是 Go GC 工作原理的详细解析：

1. 核心算法：三色标记法 (Tri-color Marking)

传统的“标记-清扫”算法需要暂停程序（STW）去扫描整个堆，效率太低。Go 使用三色标记法来实现并发标记（即 GC 线程和用户线程同时运行）。

它将对象分为三种颜色：

白色 (White)：潜在的垃圾。表示对象尚未被 GC 访问到。在 GC 开始时，所有对象都是白色的。GC 结束时，剩下的白色对象就是垃圾。
灰色 (Grey)：活跃对象，但其子对象（引用的对象）尚未被扫描。它是一个中间状态，类似于“待处理队列”。
黑色 (Black)：活跃对象，且其所有子对象都已被扫描完毕。GC 不会再扫描黑色对象。

过程演示：

初始状态：所有对象都是白色。
扫描根节点 (Root Set)：从根节点（全局变量、栈上的局部变量等）出发，找到它们引用的对象，将其标记为灰色。
遍历灰色集合：
- 从灰色集合中取出一个对象，将其标记为黑色。
- 将该对象引用的所有白色子对象标记为灰色。
重复：重复步骤 3，直到灰色集合为空。
清扫：此时，图中只剩下黑色（活跃）和白色（垃圾）。回收所有白色对象。

2. 并发带来的问题：对象丢失

在并发标记过程中，用户程序（Mutator）也在运行，可能会修改指针。这会导致严重的对象丢失问题（把本该存活的对象误删了）。

这种情况发生的条件（同时满足）：

条件 1：一个黑色对象引用了一个白色对象（黑色对象被 Mutator 修改了指针，指向了白色）。
条件 2：灰色对象与该白色对象之间的引用关系被破坏（灰色对象删除了对该白色的引用）。

结果：GC 认为黑色已经扫描完了，不会再去扫描它指向的那个白色对象；而灰色对象又断开了引用。于是，那个白色对象虽然被黑色引用（存活），但会被当做垃圾回收。

3. 解决方案：屏障机制 (Write Barrier)

为了防止对象丢失，必须破坏上述两个条件中的任意一个。Go 引入了写屏障技术。写屏障就像一段钩子代码，在用户程序修改指针时触发。

演进历史：

Go 1.7 之前 (Dijkstra 插入写屏障)：
- 破坏条件 1。
- 逻辑：当黑色对象指向白色对象时，强制将该白色对象标记为灰色。
- 缺点：栈上的操作速度要求极高，不能加屏障。所以 GC 结束后需要 STW 重新扫描栈。
Go 1.8 之后 (混合写屏障 - Hybrid Write Barrier)：
- 结合了插入写屏障和删除写屏障（Yuasa）的优点。
- 极大地减少了 STW 时间，因为不再需要 GC 结束时重新扫描栈。

混合写屏障的核心逻辑：

GC 开始时，将栈上的所有对象全部标记为黑色（不需要二次扫描）。
GC 期间，任何在栈上新创建的对象，均为黑色。
被删除的引用对象，标记为灰色（保护老对象，破坏条件 2）。
被添加的引用对象，标记为灰色（保护新对象，破坏条件 1）。

总结：只要在 GC 期间，任何指针的变动，涉及到的对象都会被“着色”保护起来，确保不会被误删。

4. Go GC 的完整工作流程 (Cycle)

目前的 Go GC 流程主要分为四个阶段：

Sweep Termination (清理终止) [STW]
- 暂停程序。
- 清理上一轮未清理完的资源（通常很少）。
- 开启写屏障。
- 耗时：微秒级。
Mark (标记) [Concurrent]
- 恢复程序运行（并发）。
- GC 根节点扫描（Root Scan）。
- 并发循环处理灰色对象队列（三色标记）。
- 此时，用户线程（Mutator）和后台 GC 线程（Background Workers）共同工作。如果分配内存速度太快，GC 会启动 辅助标记（Mark Assist），强行征用用户线程的一小部分时间来帮忙标记，防止内存爆掉。
- 耗时：主要耗时阶段，但程序在运行。
Mark Termination (标记终止) [STW]
- 暂停程序。
- 完成最后的标记工作（处理缓冲区中剩余的记录）。
- 关闭写屏障。
- 耗时：微秒到毫秒级。
Sweep (清扫) [Concurrent]
- 恢复程序运行。
- 后台并发地回收白色对象内存。
- 内存归还给堆（Heap）。

5. 触发时机 (Pacing)

Go GC 什么时候开始？主要由 Pacer（步调算法） 控制：

堆内存增长比例 (GOGC)：
- 默认值 GOGC=100。
- 公式：下一次GC触发阈值 = 上次GC后的存活堆大小 * (1 + GOGC/100)。
- 例如：上次 GC 后存活 10MB，GOGC=100，则当堆增长到 20MB 时触发下一次 GC。
时间阈值：
- 如果 2 分钟内没有触发过 GC，强制触发一次（由 sysmon 监控）。
手动触发：
- 调用 runtime.GC()（通常不建议）。

6. 优缺点总结

优点：

低延迟：得益于并发标记和混合写屏障，STW 时间极短（通常在 1ms 以下，甚至几十微秒），适合编写网络服务。
利用多核：GC 线程并行运行。

缺点/权衡：

吞吐量影响：在 GC 标记阶段，CPU 需要分出一部分计算能力给 GC 线程和写屏障，会降低用户程序的吞吐量（约 25% 的 CPU 可能会被 GC 占用）。
无分代：对于“朝生夕死”的短生命周期对象，回收效率不如 Java 的分代 GC（Java 的 Eden 区回收几乎无成本）。Go 通过逃逸分析将短周期对象分配在栈上来缓解这个问题。

7. 优化建议

作为开发者，理解 GC 原理后可以做以下优化：

减少对象分配：使用 sync.Pool 复用对象，减少堆上对象的创建。
逃逸分析：尽量让小对象在栈上分配（函数返回后自动销毁，不需要 GC 介入）。
调整 GOGC：如果是内存充足但对 CPU 敏感的服务，可以调大 GOGC（如 200 或 500），用空间换时间，减少 GC 频率。
Ballast（压舱石）：(Go 1.19 之前常用技巧) 初始化一个巨大的 byte 数组，人为撑大堆内存基数，从而推迟 GC 触发阈值。Go 1.19 引入了 GOMEMLIMIT，这种技巧就不太需要了。

右滑查看面试常问

播面