[SQL] 컬럼 내 고유값 추출

박경국·2022년 5월 16일
0

SQL

목록 보기
6/14
post-thumbnail

범주형 자료에 대해서 카테고리와 기초 통계량을 확인하기 위해 고유값을 추출해야할 때가 있습니다. 같은 정보를 다르게 표현한 경우도 있기 때문에 필요에 따라서 함수를 적절히 사용해야합니다. SQL에서 고유값을 추출하는 방법에 대해 정리하겠습니다.

DISTINCT

가장 기본적인 고유값 추출 방법입니다. 컬럼에 대해 DISTINCT 함수를 적용하면 고유값이 리턴됩니다.

SELECT DISTINCT(job) FROM user;

SUBSTRING

Job의 고유값을 출력하려고 합니다. 같은 직군은 한 그룹으로 묶으려 하는데 입력된 값이 제각각인 경우가 있습니다.

데이터 분석가, 데이터 애널리스트, 데이터 사이언티스트, 데이터 엔지니어 등 같은 데이터 직군임에도 직무에 따라서 다양한 값을 갖습니다. 이런 경우에는 SUBSTRING 함수로 고유값을 뽑아낼 수 있습니다.

SELECT DISTINCT(SUBSTRING(job, 1, 3)) FROM user;

SUBSTRING은 문자열의 일부를 추출하는 함수입니다. 첫 번째 인자는 대상이 되는 컬럼을, 두 번째 인자는 추출을 시작하는 지점, 세 번째 인자는 추출을 끝내는 지점을 의미합니다. 위 쿼리는 첫 번째 문자부터 세번째 문자를 추출한다는 의미입니다.

0개의 댓글