[ADsP] 데이터 분석 준전문가 시험 - 데이터

파이톨치·2022년 1월 26일

데이터

데이터에는 여러가지 유형이 있다. 이 시험에서는 이런 데이터의 유형이 뭔지 등을 물어보는 것 같다. 사실 별 쓸데 없긴 하지만 시험을 보기 위해서 정리를 하기 위해 블로그를 작성한다.
블로그를 볼 때 시험을 보기 위해서는 "(시험에 나오는 정보) : (참고하는 정보)" 이런식으로 ":" 를 기준으로 보면 된다.

~~사실 내가 아는 내용은 빼고 적어서 불친절 할 수 있다.~~

데이터 유형

정형 데이터 : SQL, 엑셀
반정형 데이터 : HTML, JSON, 웹페이지
비정형 데이터 : SNS, 이미지, 문서, 오디오, 비디오

데이터 변환 방법

표준화 : Z변환, [0-1] 변환 (0~1사이 값으로 바꿔주는 것)
정구분포화 : 로그변환, 제곱근 변환
범주화 : 이산형화, 이항변수화
개수축소 : 랜덤표본화, 층화표본화, 군집표본화
차원축소 : 요인분석, 주성분분석 (변수를 선택하거나 축소함)
시그널 데이터 압축 : 푸리에 변환, 웨이블릿 변환

아는 내용도 나오고 해서 반가웠다.

R 기본 연산

R은 약간 신기한? 이상한? 문법을 쓰는 것들이 있다.

몫 : %/%
나머지 : %%
5->x : x에 5 대입

특수 데이터 타입

사실 NULL이나 NA나 NaN 이나 크게 다르지 않다고 느껴왔지만 심화로 들어가면 다른가보다.. 외워두자..

NULL : 존재하지 않는 객체로 지정한다.
NA : 결측값을 의미한다.
NaN : Not a Number
Inf : 무한

벡터 (이거 시험에 나올듯)

책에 쓰여 있는 내용을 써보자면
벡터는 동일한 데이터 타입으로 이루어진 한 개 이상의 값들로 구성된다.
이렇게 보면 뭔가 대단한 것 처럼 보이는데 코드로 보면
x1 = c(1, 5, 10)
x2 = c(4, 7, 3)
x3 = c(x1, x2)
x4 = 1:10

x4의 결과 : 1 2 3 4 5 6 7 8 9 10

이런식으로 쓴다. 약간 리스트랑 비슷한거 같다. 괄호 쓰니까 튜플인가..?
seq()는 sequence의 약자로 콜론의 확장형이라고 한다. 파이썬의 range랑 비슷한 친구같다.
rep()는 replication의 약자로 지정된 데이터를 복사한다고 한다.

데이터 분류

연속형 데이터(일변량)

히스토그램, Box Plot, Violin Plot, 커널 밀도 곡선

범주형 데이터(일변량)

막대 그래프, 원 그래프(파이 차트)

R 함수

mean() : 평균
var() : 분산
sd() : 표준편차 (얘만 조금 헷갈림)
summary : 최소값, 최대값, 중앙값, 평균 보여줌 (올 좋은데?)

연속형 데이터(다변량)

산점도, 선그래프, 시계열 그래프

범주형 데이터(다변량)

모자이크 그래프

파이톨치

안알랴줌

이전 포스트

[프로그래머스 SQL] GROUP BY

다음 포스트