HyperLogLog은 매우 큰 데이터 세트에서 고유 요소의 개수를 추정하기 위한 알고리즘입니다. 정확한 카운팅에 비해 극소의 메모리를 사용하면서도, 0.81%의 표준 오차 범위 내에서 고유 요소의 개수를 추정할 수 있습니다.
PFADD: HyperLogLog에 요소를 추가합니다.
PFADD myhll item1 item2 item3
PFCOUNT: HyperLogLog에 포함된 고유 요소의 개수를 추정합니다.
PFCOUNT myhll
PFMERGE: 두 개 이상의 HyperLogLog를 병합합니다.
PFMERGE resultHll hll1 hll2
HyperLogLog은 다음과 같은 분야에서 유용하게 활용될 수 있습니다:
예를 들어, 웹사이트의 일일 고유 방문자 수를 추정하고자 할 때, 각 방문자의 ID나 IP 주소를 HyperLogLog에 추가합니다. 이후 PFCOUNT
명령어를 사용하여 그날의 고유 방문자 수를 추정할 수 있습니다.
PFADD visitors 192.168.0.1 192.168.0.2 192.168.0.3
PFCOUNT visitors
이 방법은 매우 큰 데이터 세트를 다룰 때 메모리 사용량을 크게 줄이면서도, 고유 요소의 개수를 효과적으로 추정할 수 있게 해줍니다.