데이터 특성 분석하기(1)

조권휘·2022년 8월 22일
0

데이터베이스

목록 보기
4/4
post-thumbnail

데이터 특성 구하기(함수)

집계 함수

  • 특정 column의 여러 row의 값들을 동시에 고려해서 실행되는 함수
SELECT COUNT(*) FROM copang_main.member;

SELECT MAX(height) FROM copang_main.member;

SELECT MIN(height) FROM copang_main.member;

SELECT AVG(weight) FROM copang_main.member;

SELECT SUM(age) FROM copang_main.member;

SELECT STD(age) FROM copang_main.member;
  • COUNT(col) : col을 가지고 있는 row의 개수를 보여준다.
  • COUNT(*) : 전체 row의 개수를 반환한다.
  • MAX(column) : column중 최대값을 보여준다.
  • MIN(column) : column중 최소값을 보여준다.
  • AVG(column) : column의 평균을 구해준다.
  • AVG 함수를 사용할 때, NULL값은 포함되지 않는다.
  • SUM(column) : column의 모든 값의 합을 구해준다.
  • STD(column) : column의 표준편차를 구해준다.

산술 함수

  • 특정 column의 각 row의 값마다 실행되는 함수
SELECT ABS(height) FROM copang_main.member;

SELECT SQRT(height) FROM copang_main.member;

SELECT CEIL(height) FROM copang_main.member;

SELECT FLOOR(height) FROM copang_main.member;

SELECT ROUND(height) FROM copang_main.member;
  • ABS(column) : column의 절대값을 구해준다.
  • SQRT(column) : column의 제곱근을 구해준다.
  • CEIL(column) : column 올림 함수
  • FLOOR(column) : column 내림 함수
  • ROUND(column) : column 반올림 함수

NULL 다루기

  • NULL : '값이 없음'을 나타냄
  • 선택 입력 항목 등이 있기 때문에 NULL값이 존재할 수 밖에 없고, 데이터 분석을 할 때 NULL값을 잘 다룰 수 있어야한다.
SELECT * FROM copang_main.member WHERE address IS NULL;
// NULL이 있는 row를 show
SELECT * FROM copang_main.member WHERE address IS NOT NULL;
// NULL이 없는 row를 show
  • OR / AND등을 이용하여 각 column에 NULL이 있는 지 없는지 조회를 할 수 있다.
SELECT COALESCE(height, '####'),
	COALESCE(height, '----'),
    COALESCE(height, '@@@@'),
FROM copang_main.member;
  • COALESCE(a, b) : a에서 하나씩 확인하며 NULL이 존재할 때 b로 대체해준다.

IS NULL / = NULL

  • IS NULL과 = NULL은 다르기 때문에 IS NULL을 써야할 자리에 = NULL을 쓰지 않도록 한다.
  • 당연하게 <> NULL이나 != NULL도 불가능하다.

NULL에는 어떤 연산을 해도 NULL이다.

  • NULL은 값이 아예 없는 상태를 나타내기 때문에 어떤 연산으로 해도 NULL이 도출된다.

이상한 값 제외하기

SELECT * FROM copang_main.member WHERE age BETWEEN 5 AND 90;
// 나이가 5살에서 90살인 사람만 조회

SELECT * FROM copang_main.member WHERE address NOT LIKE '%호';
// ~~호로 입력하지 않은 사람들만 조회
  • 각 column별로 이상한 값이 존재할 수 있다.
  • 이러한 row들을 제외하고 계산을 해야한다. 전체적인 특성을 파악한 뒤 함수를 이용해서 계산을 하도록 한다.




본 포스트는 코드잇 강의를 공부하며 정리한 내용입니다! 자세한 설명은 "코드잇 머신러닝 강의를 참고해주세요!

+) 코드잇 강의 바로가기

profile
안녕하세요 :) Data/AI 공부 중인 한국외대 컴퓨터공학부 조권휘입니다.

0개의 댓글