深入探究 JVM | 初探 GC 算法

GC算法的思想主要有三种:

  • Mark-Sweep
  • Mark-Compact
  • Copying

另外,当前JVM的GC一般都是分代收集,几种垃圾回收算法进行组合。

分代收集

根据分代收集的模型,一般将内存区域分为新生代(Young Generation)老年代(Old Generation)

新生代对应那些新产生的,存活时间较短的对象。如果一个对象在新生代内经历了一定次数(默认15)的收集后,它就会晋升至老年代(大对象也可以直接进入老年代,可以调参数)。一般会把新生代划分为Eden区和Suvivor区,在HotSpot JVM中E:2S=8:2。后面会说到,新生代一般使用基于复制的GC算法。新生代对应Minor GC。

老年代对应那些存活时间较长,容量较大的对象。老年代GC对应Full GC,此时需要STW。

JDK1.8之前还存在永久代(PermGen),它用于存放类的元数据和常量,这里偶尔也会发生GC(回收无用的类和常量等等的)。由于永久代经常会OOM,JDK1.8移除了永久代,用Metaspace代替PermGen。具体可以看我之前总结的深入探究JVM | 探秘Metaspace

基于标记-清理的GC

基于标记-清理(Mark-Sweep)的GC是比较基础的一种实现,它的思想比较简单,首先根据可达性分析对不可达对象进行标记,标记完成后统一清理这些对象。它的缺点有两个:

  • 标记和清理的效率都不算高
  • 会产生大量的内存碎片,如果这时候有大对象需要连续的内存空间进行分配,很可能会因为没有足够的连续内存空间而又触发一次GC

基于Mark-Sweep的GC多用于老年代。

基于标记-压缩的GC

基于标记-压缩(Mark-Compact)的GC可以解决内存碎片的问题。它的思想是,在标记好待回收对象后,将存活的对象移至一端(reallocate)然后对剩余的部分进行回收。这个过程需要进行remapping,即修复线程与对象之间的引用映射关系。

基于Mark-Compact的GC多用于老年代。

基于复制的GC

基于复制(Copy)的GC比较高效,它的思路是,将内存容量划分为相同的两份,每次只用一块。当这一块内存用完了,就把还存活的对象移到另一块内存,然后对这一块内存(整个半区)进行清理操作。这样内存分配时也就不用考虑内存碎片了,只需要移动指针,按顺序分配即可。但是这种算法是拿空间换时间,而且一下子就是50%的内存空间,一般受不了。并且这种算法需要频繁GC。而新生代的对象一般是存活时间较短的对象,GC频率较高,占内存较少,因此新生代一般都采用基于复制的GC。

HotSpot JVM将新生代划分为一个Eden区和两个Survivor区,默认比例为8:2,其中对象可使用1E+1S,留出空闲的1S。每次进行GC的时候收集器就会将存活对象移至那个空闲S区,然后将其余的部分进行回收,这样默认空间利用率可达90%。当然也有很多时候一个S区无法容纳所有的存货对象,那么某些对象就需要通过分配担保机制(Handle Promotion)直接进入老年代。

当前商用实现

这是现有的商用GC对应的算法:


参考资料

  • 《深入理解Java虚拟机:JVM高级特性与最佳实践》,周志明 著
  • Garbage Collection Understanding Java, Azul
文章目录
  1. 1. 分代收集
  2. 2. 基于标记-清理的GC
  3. 3. 基于标记-压缩的GC
  4. 4. 基于复制的GC
  5. 5. 当前商用实现
  6. 6. 参考资料