가비지 컬렉션(GC)

크리링·2023년 4월 2일
0
post-thumbnail

대부분의 객체가 접근 불가능한 상태(Unreachable)가 된다.
오래된 객체에서 새로운 객체로의 참조는 아주 적게 존재한다.






GC 구조

Young 영역

  • 새롭게 생성된 객체가 할당(Allocation)되는 영역
  • 대부분의 객체가 금방 Unreachable 상태가 되기 때문에, 많은 객체가 Young 영역에 생성되었다가 사라진다.
  • Young 영역에 대한 가비지 컬렉션(Garbage Collection)을 Minor GC라고 부른다.

Old 영역

  • Young영역에서 Reachable 상태를 유지하여 살아남은 객체가 복사되는 영역
  • Young 영역보다 크게 할당되며, 영역의 크기가 큰 만큼 가비지는 적게 발생한다.
  • Old 영역에 대한 가비지 컬렉션(Garbage Collection)을 Major GC 또는 Full GC라고 부른다.

예외적인 상황으로 Old 영역에 있는 객체가 Young 영역의 객체를 참조하는 경우도 존재할 것이다. 이러한 경우를 대비하여 Old 영역에는 512 bytes의 덩어리(Chunk)로 되어 있는 카드 테이블(Card Table)이 존재한다.

카드 테이블에는 Old 영역에 있는 객체가 Young 영역의 객체를 참조할 때 마다 그에 대한 정보가 표시된다. 카드 테이블이 도입된 이유는 간단한다. Young 영역에서 가비지 컬렉션(Minor GC)가 실행될 때 모든 Old 영역에 존재하는 객체를 검사하여 참조되지 않는 Young 영역의 객체를 식별하는 것이 비효율적이기 때문이다. 그렇기 때문에 Young 영역에서 가비지 컬렉션이 진행될 때 카드 테이블만 조회하여 GC의 대상인지 식별할 수 있도록 하고 있다.






가비지 컬렉션 동작 방식

  1. Stop The World
  2. Mark and Sweep



Stop The World

가비지 컬렉션을 실행하기 위해 JVM이 애플리케이션의 실행을 멈추는 작업이다.

GC가 실행될 때는 GC를 실행하는 쓰레드를 제외한 모든 쓰레드들의 작업이 중단되고, GC가 완료되면 작업이 재개된다. 당연히 모든 쓰레드들의 작업이 중단되면 애플리케이션이 멈추기 때문에, GC의 성능 개선을 위해 튜닝을 한다고 하면 보통 stop-the-world의 시간을 줄이는 작업을 하는 것이다. 또한 JVM에서도 이러한 문제를 해결하기 위해 다양한 실행 옵션을 제공하고 있다.



Mark and Sweep

Mark : 사용되는 메모리와 사용되지 않는 메모리를 식별하는 작업
Sweep : Mark 단계에서 사용되지 않음으로 식별된 메모리를 해제하는 작업

Stop The World를 통해 모든 작업을 중단시키면, GC는 스택의 모든 변수 또는 Reachable 객체를 스캔하면서 각각이 어떤 객체를 참고하고 있는지를 탐색하게 된다. 그리고 사용되고 있는 메모리를 식별하는데, 이러한 과정을 Mark라고 한다. 이후에 Mark가 되지 않은 객체들을 메모리에서 제거하는데, 이러한 과정을 Sweep라고 한다.



Minor GC의 동작 방식

  • Young 영역
    1개의 Eden : 새로 생성된 객체가 할당되는 영역
    2개의 Survivor : 최소 1번의 GC 이상 살아남은 객체가 존재하는 영역

1 새로 생성된 객체가 Eden 영역에 할당된다.
2 객체가 계속 생성되어 Eden 영역이 꽉차게 되고 Minor GC가 실행된다.
1 Eden 영역에서 사용되지 않는 객체의 메모리가 해제된다.
2 Eden 영역에서 살아남은 객체는 1개의 Survivor 영역으로 이동된다.
3 1~2번의 과정이 반복되다가 Survivor 영역이 가득 차게 되면 Survivor 영역의 살아남은 객체를 다른 Survivor 영역으로 이동시킨다.(1개의 Survivor 영역은 반드시 빈 상태가 된다.)
4 이러한 과정을 반복하여 계속해서 살아남은 객체는 Old 영역으로 이동(Promotion)된다.



Major GC의 동작 방식

Major GC는 객체들이 계속 Promotion되어 Old 영역의 메모리가 부족해지면 발생하게 된다. Young 영역은 일반적으로 Old 영역보다 크키가 작기 때문에 GC가 보통 0.5초에서 1초 사이에 끝난다. 그렇기 때문에 Minor GC는 애플리케이션에 크게 영향을 주지 않는다. 하지만 Old 영역은 Young 영역보다 크며 Young 영역을 참조할 수도 있다. 그렇기 때문에 Major GC는 일반적으로 Minor GC보다 시간이 오래걸리며, 10배 이상의 시간을 사용한다.






3. 가비지 컬렉션 내용 요약




GC 알고리즘

Serial GC

  • CPU 코어가 1개일 때 사용하기 위해 개발
  • 1개의 쓰레드만을 이용

Young 영역은 앞서 설명한 알고리즘(Mark Sweep)대로 수행된다. 하지만 Old 영역에서는 Mark Sweep Compact 알고리즘이 사용되는데, 기존의 Mark Sweep에 Compact라는 작업이 추가되었다. Compact는 Heap 영역을 정리하기 위한 단계로 유요한 객체들이 연속되게 쌓이도록 힙의 가장 앞 부분부터 채워서 객체가 존재하는 부분과 객체가 존재하지 않는 부분으로 나누는 것이다.






Parallel GC

  • GC의 오버헤드를 상당히 줄임
  • ~Java8 기본 가비지 컬렉터
  • Application 멈추는게 불가피

기본적인 처리 과정은 Serial GC와 동일하다. 하지만 Parallel GC는 여러 개의 쓰레드를 통해 Parallel하게 GC를 수행함으로써 GC의 오버헤드를 상당히 줄여준다.
Parallel GC는 멀티 프로세서 또는 멀티 쓰레드 머신에서 중간 규모부터 대규모의 데이터를 처리하는 애플리케이션을 위해 고안되었으며, 옵션을 통해 애플리케이션의 최대 지연 시간 또는 GC를 수행할 쓰레드의 갯수 등을 설정해줄 수 있다.






G1(Garbage First) GC

  • Java 7 부터 지원, Java 9부터 기본 가비지 컬렉터

  • 기존 처럼 Eden 영역에 할당하고, Survivor로 카피하는 등의 과정을 물리적으로 메모리 공간을 나누지 않음

  • Region(지역) 이라는 개념을 새로 도입하여 Heap을 균등하게 여러 개의 지역으로 나누고, 각 지역을 역할과 함께 논리적으로 구분하여 (Eden, survivor, old인지) 객체를 할당한다.

  • HumongousAvailabe/Unused라는 2가지 역할을 추가
    Humongous : Region 크기의 50%를 초과하는 객체를 저장하는 Region
    Available/Unused : 사용되지 않는 Region

Heap을 동일한 크기의 Region으로 나누고, 가비지가 많은 Region에 대해 우선적으로 GC를 수행하는 것



Minor GC

  • 한 지역에 객체를 할당하다가 해당 지역이 꽉 차면 다른 지역에 객체를 할당하고, Minior GC가 실행
  • G1 GC는 각 지역을 추적하고 있기 떄문에, 가비지가 가장 많은 지역을 찾아서 Mark and Sweep을 수행
  • Eden 지역에서 GC가 수행되면 살아남은 객체를 식별(Mark)하고, 메모리를 회수(Sweep) 한다.
  • 살아남은 객체를 다른 지역으로 이동시킨다. 복제되는 지역이 Available/Unused 지역이면 해당 지역이 Survivor 영역이 되고, Eden 영역은 Available/Unused 지역이 된다.



Major GC

  • 시스템이 운영되다가 객체가 너무 많아 빠르게 메모미를 회수 할 수 없을 때 Major GC가 실행된다.
  • 하지만 G1 GC는 어느 영역에 가비지가 많은지를 알고 있기 때문에 GC 수행 지역을 조합하여 해당 지역에 대해서만 GC 수행 (작업은 Concurrent하게)
  • 다른 GC방식에 비해 잦게 호출되지만 규모가 작은 메모리 정리 작업이고 Concurrent하게 수행되기 때문에 지연이 크지 않으며, 가비지가 많은 지역에 대해 정리를 하므로 훨씬 효율적






출처 및 참고 :

0개의 댓글