[자료구조] 해시(Hash)

강민승·2023년 8월 24일
0

자료구조

목록 보기
8/10

해시(Hash)

데이터를 효율적으로 관리하기 위해, 임의의 길이 데이터를 고정된 길이의 데이터로 매핑하는 것

해시 함수를 구현하여 데이터 값을 해시 값으로 매핑한다.


menu = {"Lee": 5, "Kim": 3, "Park": 2}

Lee → 해싱함수 → 5
Kim → 해싱함수 → 3
Park → 해싱함수 → 2
...
Chun → 해싱함수 → 5 // Lee와 해싱값 충돌

결국 데이터가 많아지면, 다른 데이터가 같은 해시 값으로 충돌나는 현상이 발생함 'collision' 현상

그래도 해시 테이블을 쓰는 이유는?

적은 자원으로 많은 데이터를 효율적으로 관리하기 위해

하드디스크나, 클라우드에 존재하는 무한한 데이터들을 유한한 개수의 해시값으로 매핑하면 작은 메모리로도 프로세스 관리가 가능해짐!

  • 언제나 동일한 해시값 리턴, index를 알면 빠른 데이터 검색이 가능해짐
  • 해시테이블의 시간복잡도 O(1) - (이진탐색트리는 O(logN))

해시 테이블은 왜 빠를까??

색인(index) 에 해시 값을 사용함으로써 모든 데이터를 살피지 않아도 탐색과 삽입/삭제 을 빠르게 수행 가능합니다.

해시 함수는 언제나 동일한 해시 값을 리턴하고, 해당 index만 안다면 해시 테이블 크기와 상관없이 데이터에서 대단히 빠르게 접근 할 수 있습니다.

위와 같은 특성 덕분에 해시 테이블 탐색/삽입,삭제의 시간 복잡도 O(1) 라는 특성이 있습니다.


해시 테이블의 충돌 발생

해시 충돌이란?

위에서도 예시를 들어 설명 했지만 한번 더 얘기하면, 해시 충돌은 해시 함수가 서로 다른 두 개의 입력 값에 대해 동일한 출력 값을 내는 상황을 말합니다. 주로 예시로 비둘기 집의 원리가 나옵니다.

비둘기는 비둘기 집에 들어가야 합니다. 하지만 이미 비둘기 집에 비둘기가 있는 경우 충돌 현상이 일어나게 됩니다.

이러한 상황을 해결 하기 위해 해시 테이블에서는 여러 해결 방안이 나옵니다.

해시 테이블 충돌 문제 해결

체이닝 방법: 연결 리스트로 노드를 계속해서 추가해 나가는 방식 (제한 없이 계속 연결이 가능, but 메모리 문제 발생)

Open Addressing 방법 : 해시 함수로 얻은 주소가 아닌 다른 주소에 데이터를 저장할 수 있도록 허용 (해당 키 값에 저장 되어있으면 다음 주소에 저장)

  • 제곱 탐사 : 정해진 고정 폭을 제곱수로 옮겨 해시 값의 중복을 피함

  • 선형 탐사: 정해진 고정 폭으로 옮겨 해시 값의 중복을 피함

  • 이중 해싱: 충돌이 발생한 경우 기존과 다른 해싱 함수를 사용하여 인덱싱 하여 해시 값의 중복을 피함

체이닝 방법은 충돌 시 연결 리스트를 만들어 값을 할당하고 이어서 연결하는 방식을 사용합니다.

Open Addressing 방법은 충돌 시 해시 테이블에서 놀고 있는 인덱스에 할당하는 방식을 사용합니다.

Seperate Chaning(분산 체이닝) 방법

위 그림은 분산 체이닝 방법을 사용하여 해시 충돌을 해결한 그림입니다.

동일한 인덱스를 받아 충돌이 생겼을 때, index가 가르키고 있는 연결 리스트에 노드를 추가하여 값을 추가 해줍니다. 이렇게 하면 데이터를 추가 할때 동일한 인덱스를 받아 충돌이 발생한 경우, 데이터 삽입에 문제가 없습니다. 데이터 추출 시에는 key에 대한 index로 연결 리스트를 탐색(순회)하며 데이터를 추출 합니다.

하지만 여기에는 단점이 있습니다. 동일한 인덱스를 받아 충돌을 체이닝으로 계속 해결하게 된다면 버킷의 할당 된 테이블이 놀고 있는 현상이 일어납니다.

이러한 문제, 즉 놀고 있는 버킷의 테이블을 먼저 소모하도록 만든 충돌 해결 방법이 바로 Open Addressing 방법 입니다.

위에서 소개한 Open Addressing 방법 중 선형 탐사 방법에 대해 알아 보겠습니다.

Linear Probing(선형 탐사)

선형 탐사 방법은 버킷의 자리를 우선적으로 모두 사용하는 방식 입니다. 테이블의 한 칸씩 이동하며 값이 없다면 할당하고, 있다면 다시 한 칸 이동합니다.

위 그림을 보면 충돌이 생겼을 때 다음 인덱스로 할당해 주는 것을 볼 수 있습니다. 하지만 계속해서 선형 탐사 방식으로 충돌을 해결하다보면 테이블이 모두 차게 되는 경우가 생깁니다.

이러한 경우 더 이상 요소를 넣어 줄 수 없기 때문에 테이블의 크기를 늘려 주어야 합니다.

이때 테이블 Resizing 을 통해 테이블의 크기를 늘려줍니다. 보통 75% 만큼 채워진다면, 2배로 테이블의 크기를 늘려주고 25% 로 줄었다면 테이블의 크기를 절반으로 줄여줍니다.


해시 버킷 동적 확장

동적해싱

정적 해싱의 가장 큰 문제점은 데이터를 입력하기 전에 미리 할당 받아야하며, 추가적인 입력으로 할당된 메모리 크기를 넘어갈 수 있습니다.

위와 같은 경우 새로 만든 큰 해시 테이블에서 재조정하여 삽입하는 문제점이 발생한다. 이럴 경우 굉장한 시간적, 자원적 낭비가 발생한다.

이러한 문제점을 해결하기 위해서 동적해싱이 등장한다.

동적해싱 이용

해시 버킷의 크기가 충분히 크다면 해시 충돌 빈도를 낮출 수 있다

하지만 메모리는 한정된 자원이기 때문에 무작정 큰 공간을 할당해 줄 수 없다

때문에 load factor가 일정 수준 이상 이라면 (보편적으로는 0.7 ~ 0.8) 해시 버킷의 크기를 확장하는 동적 확장 방식을 사용한다

  • load factor : 할당된 키의 개수 / 해시 버킷의 크기

해시 버킷이 동적 확장 될 때 리해싱 과정을 거치게 된다

  • 리해싱(Rehashing) : 기존 저장되어 있는 값들을 다시 해싱하여 새로운 키를 부여하는 것을 말한다


참고자료 : 링크

profile
Step by Step goes a long way. 꾸준하게 성장하는 개발자 강민승입니다.

0개의 댓글