박스 플롯(Box Plot)은 통계학적 데이터를 시각적으로 요약하고 분포를 이해하는데 도움을 주는 그래프
주로 데이터의 중앙값, 사분위수, 이상치 등을 시각화하여 데이터의 분포와 특성을 파악하는 데 사용됩니다.
1사분위수(Q1), 3사분위수(Q3), 그리고 중앙값(median)은 주로 데이터의 분포와 중심 경향을 이해하고 비교하기 위해 사용
- 1사분위수(Q1): 데이터를 작은 값에서부터 크기순으로 정렬했을 때, 전체 데이터의 25% 지점에 해당하는 값
즉, 데이터의 하위 25%에 위치하는 값이며, Q1은 데이터의 하위 25%의 분포를 나타내므로, 데이터의 하위 25%가 어떤 범위 내에서 분포하는지 파악 가능
- 3사분위수(Q3): 데이터를 작은 값에서부터 크기순으로 정렬했을 때, 전체 데이터의 75% 지점에 해당하는 값
즉, 데이터의 하위 75%에 위치하는 값이며, Q3은 데이터의 상위 25%의 분포를 나타내므로, 데이터의 상위 25%가 어떤 범위 내에서 분포하는지 파악 가능
- 중앙값(median): 데이터를 작은 값에서부터 크기순으로 정렬했을 때, 가장 가운데에 위치하는 값
중앙값은 데이터의 중심 경향을 나타내며, 이상치에 영향을 받지 않음
수염 (Whiskers): 박스 위와 아래에서 뻗어나온 선으로, 전체 데이터 범위를 표시
일반적으로 아웃라이어(이상치)를 제외한 데이터의 최소값과 최대값
이상치 (Outliers): 전체 데이터 중에서 다른 데이터와 동떨어진 극단적인 값을 가진 데이터 포인트
이상치는 박스 플롯에서 점으로 표시되거나 별도의 마커로 표시
박스 플롯은 데이터의 분포와 중앙값, 사분위수 등을 한눈에 파악하기에 유용하며, 다양한 데이터 집합 간 비교 역시 가능
이를 통해 데이터의 중심 경향과 퍼짐 정도를 시각화하여 데이터 간 비교와 이상치 탐지 등에 활용