파티셔닝

코딩하는스님·2022년 5월 17일

파티셔닝 : 대용량 데이터베이스를 의도적으로 작은 단위로 쪼개는 방법 (샤딩)

파티셔닝과 복제

복제와 파티셔닝을 함께 적용해 각 파티션의 복사본을 여러 노드에 저장한다.

각 노드는 여러 파티션으로 구성될 수 있으며, 각 노드는 리더이자 팔로워가 된다.

키-값 데이터 파티셔닝

파티셔닝의 목적은 데이터와 질의 부하를 노드 사이에 고르게 분산시키는 것이다.
파티셔닝이 고르게 이뤄지지 않아 다른 파티션보다 데이터가 많거나 질의를 많이 받는 파티션이 있다면 skewed되었다고 하고 hotspot이라고 부른다.

키 범위 기준 파티셔닝

파티셔닝의 단위를 범위를 가지는 키로 적용한다.
이 경우에도 특정 범위의 키로 질의가 쏠리는 경우가 발생할 수 있다.
이를 회피하고자 한다면 키의 첫번째 요소를 변경할 필요가 있다.
ex)
as-is: timestamp
to-be: type + timestamp

키의 해시값 기준 파티셔닝

데이터가 쏠리는 현상을 막기 위해서 키를 해싱한 값으로 파티셔닝한다.
해시함수는 암호적으로 강력할 필요는 없다.

일관성 해싱 === 해시 파티셔닝
해싱 파티셔닝은 범위 질의를 효율적으로 실행할 수 없고, 재균형화도 잘 동작하지 않는다.
따라서 복합 기본키를 사용하여 1차적으로는 해싱으로 질의를 한 후 2차적으로 범위 질의를 보낼 수 있다. (cassandra, dynamoDB?)

쏠린 작업부화와 핫스팟 완화

해싱을 하더라도 동일 키에 대한 접근이 많아져서 쏠림현상이 발생할 수 있다.
이 경우에는 부하가 걸릴 것으로 예상되는 키를 한번 더 분할함으로써 이를 완화할 수 있다. 해시키 뒤에 임의의 숫자를 붙이는 방법을 사용할 수 있다.
하지만 같은 키를 읽기 위해 조회의 수가 많아지는 trade off가 발생한다.