Java - 자바에서 자주 쓰는 자료구조2

청포도봉봉이·2023년 12월 31일

Java

java

목록 보기

9/20

HashMap과 hashCode 메소드의 관련성에 대해 설명해주세요.

HashMap과 hashCode 메서드의 연관성

HashMap은 Java의 가장 흔히 사용되는 데이터 구조 중 하나로, 키(Key)와 값(Value)을 쌍으로 저장하고 관리할 수 있는 구조이다.

해당 구조에서 중요한 것은 'hashCode' 메서드와 'equals' 메서드이다. 이 두 메서드는 HashMap에서 키의 유일성을 관리하는 데 사용된다.

hashCode 메서드란?

hashCode 메서드는 객체가 메모리에 저장된 위치를 표현하는 정수값이다. 이 메서드는 객체의 메모리 주소를 반환하므로, 동일한 객체는 동일한 해시 코드를 반환한다.

HashMap에서 hashCode 메서드의 역할

HashMap에서 키로 사용되는 객체는 hashCode 메서드를 가지고 있다. HashMap은 이 메서드를 사용하여 키가 저장될 위치를 결정한다.

키 객체의 hashCode 메서드가 반환하는 값을 해시값으로 사용하여, 이 해시값을 기반으로 해당 키와 값이 저장될 버킷(bucket)의 위치를 결정한다.

따라서, hashCode 메서드는 키의 저장 위치를 결정하는 중요한 역할을 한다. 동일한 키에 대한 hashCode 메서드의 반환값이 동일하다면, 동일한 버킷에 저장되어야 한다.

주의사항

hashCode 메서드를 재정의하는 경우, equals 메서드도 재정의해야 한다. 이는 두 메서드가 서로 연관되어 있기 때문이다. 즉, 두 객체가 동일하다면(equals 메서드가 true를 반환한다면), 두 객체의 해시 코드도 동일해야 한다.

예시 코드

다음은 hashCode 메서드와 equals 메서드가 재정의된 예시 클래스이다.

class Key {
    String key;

    Key(String key) {
        this.key = key;
    }

    @Override
    public boolean equals(Object obj) {
        if (this == obj) return true;
        if (obj == null || getClass() != obj.getClass()) return false;
        Key key1 = (Key) obj;
        return Objects.equals(key, key1.key);
    }

    @Override
    public int hashCode() {
        return Objects.hash(key);
    }
}

이 클래스는 HashMap에서 키로 사용될 수 있다. hashCode 메서드와 equals 메서드는 키의 유일성을 보장하는 데 사용된다.

HashMap에서 사용되는 해시 함수와 해시 버킷에 데이터를 저장하는 과정에 대해 설명해주세요.

HashMap에서 해시 함수와 데이터 저장 과정

HashMap은 해시 테이블을 기반으로 하는 자료구조로, 해시 함수를 사용하여 키-값 쌍을 저장하고 검색한다. 이 과정은 크게 두 단계로 나눌 수 있다.

1단계: 해시 함수를 사용한 버킷 위치 결정

HashMap에서는 키 객체의 hashCode() 메서드를 호출하여 반환된 해시코드를 사용하여 데이터가 저장될 버킷의 위치를 결정한다. 해시 함수는 해시코드를 받아서 이를 특정 범위의 값, 즉 버킷의 인덱스로 변환한다.

해시 함수는 다음과 같은 특성을 가진다:

동일한 입력에 대해서는 항상 동일한 출력을 제공한다.
다른 입력에 대해서는 가능한 한 다른 출력을 제공한다(이상적인 경우).

이렇게 결정된 버킷 위치에는 해당 키-값이 저장된다.

2단계: 데이터 저장

버킷 위치가 결정되면, 해당 위치에 키-값 쌍이 저장된다. 만약 동일한 해시코드를 가진 다른 키-값 쌍이 이미 해당 버킷에 저장되어 있다면, 이를 충돌(Collision)이라고 한다.

HashMap은 이러한 충돌을 처리하기 위해 "Separate Chaining"이라는 방식을 사용한다. 이는 각 버킷이 Linked List 구조를 가지고 있어, 하나의 버킷 위치에 여러 키-값 쌍을 저장할 수 있게 한다.

새로운 키-값 쌍이 동일한 버킷 위치에 저장되어야 할 경우, Linked List의 끝에 추가된다. 이 때, equals() 메서드를 사용하여 동일한 키가 이미 존재하는지 확인한다. 만약 동일한 키가 존재한다면, 그 키에 연결된 값이 새 값으로 대체된다.

예시 코드

다음은 HashMap에 데이터를 저장하는 예시 코드이다:

HashMap<Key, String> map = new HashMap<>();

// 키-값 쌍 추가
Key key = new Key("example");
map.put(key, "example value");

// 키를 사용한 값 검색
String value = map.get(key);

위 코드에서 put() 메서드는 해시 함수를 사용하여 키("example")의 해시코드를 계산하고, 이를 기반으로 데이터가 저장될 버킷의 위치를 결정한다. 그리고 해당 위치에 키-값 쌍("example"-"example value")를 저장한다. get() 메서드는 동일한 해시 함수를하여 키의 해시코드를 계산하고, 이를 기반으로 데이터가 저장된 버킷의 위치를 찾아 해당 키와 연결된 값을 반환한다.

Separate Chaining 외에 HashMap에서 충돌을 처리하는 다른 방식은 무엇이 있을까요?

HashMap에서 충돌을 처리하는 다른 방식

HashMap에서 충돌을 처리하는 방법은 크게 두 가지로 나뉩니다: Separate Chaining과 Open Addressing입니다.

Separate Chaining: 이 방법은 이미 설명한 바 있다. 각 버킷이 연결 리스트로 구성되어 있어, 하나의 버킷에 여러 개의 키-값 쌍을 저장할 수 있다. 충돌이 발생하면, 해당 버킷의 연결 리스트에 새로운 키-값 쌍이 추가된다.
Open Addressing: 이 방법은 모든 키-값 쌍을 해시 테이블 자체에 직접 저장합니다. 즉, 각 버킷은 단 하나의 키-값 쌍만을 저장할 수 있다. 충돌이 발생하면, 다른 버킷 위치로 키-값 쌍을 저장하기 위해 새로운 위치를 찾다. 이를 위해 다양한 방법(선형 탐사, 이차 탐사, 더블 해싱 등)을 사용할 수 있다.

그러나, Java의 HashMap 구현체는 Separate Chaining 방법을 사용한다. 따라서, Java의 HashMap에서는 Open Addressing 방법은 사용되지 않다.

Open Addressing 방식은 메모리 사용량을 줄일 수 있는 장점이 있지만, 충돌이 자주 발생하거나 해시 테이블이 거의 꽉 찼을 때 성능이 급격히 저하될 수 있다. 반면, Separate Chaining 방식은 해시 테이블의 크기를 늘리는 리사이징 연산이 덜 빈번하게 발생하므로, 일반적으로 더 안정적인 성능을 제공한다.

Open Addressing 방식에서 충돌이 발생하여 새로운 위치를 찾기 위해 사용되는 선형 탐사, 이차 탐사, 더블 해싱에 대해 간단히 설명해주세요.

Open Addressing 방식에서는 충돌이 발생할 경우, 다른 버킷 위치를 찾아 키-값 쌍을 저장합니다. 이때 사용되는 방법으로는 선형 탐사(Linear Probing), 이차 탐사(Quadratic Probing), 그리고 더블 해싱(Double Hashing) 등이 있다.

선형 탐사(Linear Probing): 충돌이 발생하면, 바로 다음 버킷을 확인하여 빈 버킷을 찾는다. 만약 그 버킷도 사용 중이라면, 그 다음 버킷을 확인하는 등 계속해서 다음 버킷을 확인한다. 이 방법은 구현이 간단하다는 장점이 있지만, 클러스터링(Clustering) 문제가 발생할 수 있다. 즉, 연속된 버킷이 한꺼번에 차게 되면, 탐색 시간이 길어질 수 있다.
이차 탐사(Quadratic Probing): 선형 탐사와 비슷하지만, 다음 버킷을 확인할 때 일정한 간격이 아니라 제곱 간격으로 버킷을 확인한다. 예를 들어, 첫 번째 충돌이 발생하면 1개 뒤의 버킷을 확인하고, 두 번째 충돌이 발생하면 4개 뒤의 버킷을 확인하는 식이다. 이 방법은 선형 탐사의 클러스터링 문제를 어느 정도 해결할 수 있지만, 여전히 일부 클러스터링 문제가 남아있다.
더블 해싱(Double Hashing): 충돌이 발생하면, 두 번째 해시 함수를 사용하여 다음 버킷을 확인하는 간격을 결정한다. 이 방법은 선형 탐사나 이차 탐사보다 클러스터링 문제를 더 잘 해결할 수 있지만, 두 번째 해시 함수를 계산하는 비용이 추가로 발생한다.

이러한 방법들은 모두 장단점이 있으므로, 사용하려는 애플리케이션의 특성에 따라 적절한 방법을 선택해야 한다.