05. Garbage Collector가 하는 일

thsamajiki·2022년 10월 25일
0

JAVA

목록 보기
5/24

Garbage Collection(가비지 컬렉션)이란?

프로그램을 개발 하다 보면 유효하지 않은 메모리인 가비지(Garbage)가 발생하게 된다. 가비지는 '정리되지 않은 메모리', '유효하지 않은 메모리 주소'를 말한다. 다음 코드를 통해 살펴보자

String[] array = new String[2];

array[0] = '0';
array[1] = '1';

array = new String[] {'G', 'C' };

위 코드에서 String 배열이 할당되기 전에 할당한 0과 1은 어디로 갔을까? 이렇게 주소를 잃어버려서 사용할 수 없는 메모리가 '정리되지 않은 메모리'이다. 프로그래밍 언어에서는 Danling Object, 자바에서는 Garbage라고 부른다.

추가로 앞으로 사용하지 않고 메모리를 가지고 있는 객체 역시 Garbage에 포함된다.

가비지 컬렉터는 메모리가 부족할 때 이런 가비지들을 메모리에서 해제 시켜 다른 용도로 사용 할 수 있게 해주는 프로그램을 말한다.

C언어를 이용할 때에는 free()라는 함수를 통해 직접 메모리를 해제해야 한다. 하지만 JAVA나 Kotlin을 이용해 개발을 하다 보면 개발자가 메모리를 직접 해제해주는 일이 없다. 그 이유는 JVM의 가비지 컬렉터가 불필요한 메모리를 알아서 정리해주기 때문이다. 이는 개발자 입장에서는 편리하다. 다만 모든 메모리 누수를 잡아주는 것은 아님으로 메모리 누수에 대한 경계를 늦추어서는 안된다.

JAVA에서는 명시적으로 불필요한 데이터를 표현하기 위해서 일반적으로 null을 선언해준다.

Person person = new Person();
person.setName("Peter");
person = null;

// 가비지 발생
person = new Person();
person.setName("Peter Parker");

기존의 Peter로 생성된 person 객체는 더 이상 참조를 하지 않고 사용이 되지 않아서 Garbage(가비지)가 되었다. Java에서는 이러한 메모리 누수를 방지하기 위해 가비지 컬렉터(Garbage Collector, GC)가 주기적으로 검사하여 메모리를 청소해준다.

(물론 Java에서도 System.gc()를 이용해 호출할 수 있지만, 해당 메소드를 호출하는 것은 시스템의 성능에 매우 큰 영향을 미치므로 절대 호출해서는 안된다.)

Minor GC 와 Major GC

JVM의 Heap 영역은 처음 설계될 때 다음의 2가지를 전제로 설계되었다.

  • 대부분의 객체는 금방 접근 불가능한 상태가 된다.
  • 오래된 객체에서 새로운 객체로의 참조는 아주 적게 존재한다.

즉, 객체는 대부분 일회성이며, 메모리에 오랫동안 남아있는 경우는 드물다는 것이다. 그렇기 때문에 객체의 생존 기간에 따라 물리적인 Heap영역을 나누게 되었는데, 이에 따라 Young, Old, Perm 총 3가지 영역으로 설계되었다. Young 영역에서 발생한 GC를 Minor GC, 나머지 두 영역에서 발생한 GC를 Major GC(Full GC)라고 한다.

  • Young 영역
    • 새롭게 생성된 객체가 할당 되는 영역
    • 대부분의 객체가 금방 Unreachable 상태가 되기 때문에, 많은 객체가 Young 영역에 생성되었다가 사라진다.
    • Young 영역에 대한 가비지 컬렉션을 Minor GC라고 부름
  • Old 영역
    • Young 영역에서 Reachable 상태를 유지하여 살아남은 객체가 복사되는 영역
    • 복사되는 과정에서 대부분 Young 영역보다 크게 할당되며, 크기가 큰 만큼 가비지는 적게 발생함
    • Old 영역에 대한 가비지 컬렉션을 Major GC 또는 Full GC라고 부름
  • Perm 영역
    • 클래스와 메소드 정보와 같이 자바 언어 레벨에서는 거의 사용되지 않는 영역
    • Method Area라고도 함

여기서 말하는 Reachable은 Stack에서 Heap 영역의 객체에 대해 참조할 수 있음을 의미한다. JAVA의 GC는 가비지 객체를 판별하기 위해 reachability라는 개념을 사용한다. 어떤 객체에 유효한 참조가 있으면 'reachable', 없으면 'unreachable'로 구별하고 'unreachable' 객체를 가비지로 간주한다.

바꿔 말하면 객체에 대한 reachability를 제어할 수 있다면 코드를 통해 JAVA GC에 일부 관여하는 것이 가능하다. JAVA에서는 이를 위해서 java.lang.ref 패키지에 SoftReference, WeakReference 등을 제공한다.

예외적인 상황으로 Old 영역에 있는 객체가 Young 영역의 객체를 참조하는 경우도 존재할 것이다. 이러한 경우를 대비하여 Old 영역에는 512bytes의 덩어리로 되어 있는 카드 테이블이 존재한다.

Untitled

카드 테이블에는 Old 영역에 있는 객체가 Young 영역의 객체를 참조할 때마다 그에 대한 정보가 표시된다. 카드 테이블이 도입된 이유는 간단하다. Young 영역에서 가비지 컬렉션이 실행될 때 모든 Old 영역에 존재하는 객체를 검사하여 참조되지 않는 Young 영역의 객체를 식별하는 것이 비효율적이기 때문이다. 그렇기 때문에 Young 영역에서 가비지 컬렉션이 진행될 때 카드 테이블만 조회하여 GC의 대상인지 식별할 수 있도록 하고 있다.


Garbage Collection의 동작 방식

Young 영역과 Old 영역은 서로 다른 메모리 구조로 되어있기 때문에, 세부적인 동작 방식은 다르다. 하지만 기본적으로 가비지 컬렉션이 실행된다고 하면 다음의 2가지 공통적인 단계를 따르게 된다.

  1. Stop The World
  2. Mark and Sweep

Stop The World

Stop The world는 가비지 컬렉션을 실행하기 위해 JVM이 애플리케이션의 실행을 멈추는 작업이다. GC가 실행될 때는 GC를 실행하는 쓰레드를 제외한 모든 쓰레드들의 작업이 중단되고, GC가 완료되면 작업이 재개된다. 당연히 모든 쓰레드들의 작업이 중단되면 애플리케이션이 멈추기 때문에, GC의 성능 개선을 위해 튜닝을 한다고 하면 보통 stop-the-world의 시간을 줄이는 작업을 한다. 또한 JVM은 이러한 문제 해결을 위해 다양한 실행 옵션을 제공한다.

Mark and Sweep

  • Mark : 사용되는 메모리와 사용되지 않는 메모리를 식별하는 작업
  • Sweep : Mark 단계에서 사용되지 않음으로 식별된 메모리를 해제하는 작업

Stop The World를 통해 모든 작업을 중단시키면, GC는 스택의 모든 변수 또는 Reachable 객체를 스캔하면서 각각이 어떤 객체를 참고하고 있는지를 탐색하게 된다. 그리고 사용되고 있는 메모리를 식별하는데, 이러한 과정을 Mark라고 한다. 이후에 Mark 가 되지 않은 객체들을 메모리를 제거하는데, 이러한 과정을 Sweep라고 한다.

Minor GC의 동작 방식

Minor GC를 정확히 이해하기 위해서는 Young 영역의 구조에 대해 이해를 해야 한다. Young 영역은 1개의 Eden 영역과 2개의 Survivor 영역, 총 3가지로 나뉘어 진다.

  • Eden 영역 : 새로 생성된 객체가 할당되는 영역
  • Survivor 영역 : 최소 1번의 GC 이상 살아남은 객체가 존재하는 영역

객체가 새롭게 생성되면 Young 영역 중에서도 Eden 영역에 할당이 된다. 그리고 Eden 영역이 꽉 차면 Minor GC가 발생하는데, 사용되지 않는 메모리는 해제되고 Eden 영역에 존재하는 객체는 Survivor 영역으로 옮겨지게 된다. Survivor 영역은 총 2개이지만 반드시 1개의 영역에만 데이터가 존재해야 하는데, Young 영역의 동작 순서를 보면

  1. 새로 생성된 객체가 Eden 영역에 할당된다.
  2. 객체가 계속 생성되어 Eden 영역이 꽉 차게 되고 Minor GC 가 실행된다.
  3. Eden 영역에서 사용되지 않는 객체의 메모리가 해제된다.
  4. Eden 영역에서 살아남은 객체는 1개의 Survivor 영역으로 이동된다.
  5. 1~2번의 과정이 반복되다가 Survivor 영역이 가득 차게 되면 Survivor 영역의 살아남은 객체를 다른 Survivor 영역으로 이동시킨다.
  6. 이러한 과정을 반복하여 계속해서 살아남은 객체는 Old영역으로 이동된다.

객체의 생존 횟수를 카운트하기 위해 Minor GC에서 객체가 살아남은 횟수를 의미하는 age를 Object Header에 기록한다. 그리고 Minor GC 때 Object Header에 기록된 age를 보고 Promotion 여부를 결정한다.

또한 Survivor 영역 중 1개는 반드시 사용이 되어야 한다. 만약 두 Survivor 영역에 모두 데이터가 존재하거나, 모두 사용량이 0이라면 현재 시스템이 정상적인 상황이 아님을 파악할 수 있다.

이러한 진행 과정을 그림으로 살펴보면 다음과 같다.

https://blog.kakaocdn.net/dn/Cyho2/btqURvZRql6/4a7u6mMGofkpuURKQz0RT1/img.png

HotSpot JVM에서는 Eden 영역에 객체를 빠르게 할당하기 위해 bump the pointer와 TLABs라는 기술을 사용하고 있다. bump the pointer란 Eden 영역에 마지막으로 할당된 객체의 주소를 캐싱해 두는 것이다. bump the pointer를 통해 새로운 객체를 위해 유효한 메모리를 탐색할 필요 없이 마지막 주소의 다음 주소를 사용하게 함으로써 속도를 높이고 있다. 이를 통해 새로운 객체를 할당할 때 객체의 크기가 Eden 영역에 적합한지만 판별하면 되므로 빠르게 메모리 할당을 할 수 있다.

싱글 쓰레드 환경이라면 문제가 없겠지만 멀티 쓰레드 환경이라면 객체를 Eden 영역에 할당할 때 락을 걸어 동기화를 해주어야 한다. 멀티 쓰레드 환경에서의 성능 문제를 해결하기 위해 HotSpot JVM은 추가로 TLABs라는 기술을 도입하게 되었다.

TLABs란 각각의 쓰레드마다 Eden 영역에 객체를 할당하기 위한 주소를 부여함으로써 동기화 작업 없이 빠르게 메모리를 할당하도록 하는 기술이다. 각각의 쓰레드는 자신이 갖는 주소에만 객체를 할당함으로써 동기화 없이 bump the pointer를 통해 빠르게 객체를 할당하도록 하고 있다.

Major GC의 동작 방식

Young 영역에서 오래 살아남은 객체는 Old 영역으로 Promotion됨을 확인할 수 있었다. 그리고 Major GC는 객체들이 계속 Promotion되어 Old 영역의 메모리가 부족해지면 발생하게 된다. Young 영역은 일반적으로 Old 영역 보다 크기가 작아서 GC가 보통 0.5초 ~ 1초 사이로 끝나게 된다. 그렇기 때문에 Minor GC는 애플리케이션에 크게 영향을 주지 않는다. 하지만 Old 영역은 Young 영역보다 크며 Young 영역을 참조할 수도 있다. 그렇기 때문에 Major GC는 일반적으로 Minor GC 보다 시간이 오래걸리며, 10배 이상의 시간을 사용한다.

profile
안드로이드 개발자

0개의 댓글