[파이썬 데이터 과학 통계 학습] Day1

Colacan·2022년 1월 15일
1

데이터통계의 기본서로 좋다고 추천받은 파이썬 데이터 과학 통계 학습을 통해 개인자습을 할 예정이다.
끝내고나면 파이썬 머신러닝 판다스 데이터 분석, 파이썬 딥러닝 파이토치를 공부할 예정이다. 이전 과정으로 존재하는 파이썬 머신러닝 딥러닝 입문은 기존에 알던 내용이 다수 존재하여 넘어가기로 하였다.
아는 내용에 관한 것은 단순한 키워드로 적어놓고 처음보거나 익숙하지 않은 내용들은 풀어서 정리할 계획이다. 학습은 가능할 때마다 할 예정이다. 1일차 Start!

1.1 데이터과학을 위한 기본 지식

키워드 : 변수명, 변수, 행, 열, 정형화에 따라 (정형, 반정형, 비정형), 시간에 따라 (시계열, 횡단면, 패널), 모집단(모평균, 모분산, 모표준편차), 표본(표본평균,표본분산,표본표준편차), 데이터측정척도(명목변수, 순위변수, 등간변수, 비율변수), 이항형, 반응변수(종속변수, 라벨), 설명변수(독립변수, 입력변수, 특징, 예측, 회귀), ID변수(KEY, 세분화변수), 범주형변수(분류), 수치형변수(회귀)

학습한 내용
반정형 : 고정된 필드에 저장되지 않은 정형 데이터
횡단면 : 동시간대에 서로 다른 개체 측정
패널 : 횡단면 데이터를 시간에 따라 나열
명목변수 : 서로 다름 외에 어떠한 정보도 포함 X
순위변수 : 명목형보다 크고 작음을 나타내는 정보 추가
등간변수 : 크고 작음과 간격에 대한 정보 포함
비율변수 : 일반적으로 사용하는 수치형 변수
이항형 : 명목변수의 범주수가 2개 이상인 경우
반응변수 : 예측의 목적에 해당
설명변수 : 반응변수에 영향을 줌
ID변수 : 개별관측치 구분이 목적

1.2 데이터 과학의 프레임워크

키워드 : 데이터과학모형, 에러, 모형적합, SSE(오차제곱합), MSE(평균제곱오차), 데이터분할, 오차유형(분산,편향,축소불가능한 오차), 과소적합, 과적합, 정밀도, 신뢰도, 타당도, 예측, 추론, 예측력, 해석력, 탐색적 데이터분석, 확증적 데이터분석, 통계학습, 기계학습(지도학습, 비지도학습, 준지도학습, 강화학습), 모수적, 지도학습, 비지도학습, 예측적 방법, 기술적 방법, 회귀, 분류, 그룹화, 차원축소, 변수선택(전진석택, 후진선택, 단계적 선택), 변수 간의 관계(독립, 상관, 인과, 쌍방향적 인과, 조절, 매개)

학습한 내용
모형적합 : 데이터과학모형을 만드는 과정
데이터분할 : 추정된 오차가 실제 오차보다 과소추정되는 문제해결
분산 줄이는 법 : 모형을 단순화 (but, 편향이 증가함), 보다 대표성있는 데이터 선정, 더 많은 학습데이터 확보
축소 불가능한 오차 : 수집되지 않은 변수나 갖고 있지 않은 다른 정보에 의해 발생한 오차
분산이 낮다 : 신뢰도, 정밀도가 높다
편향이 낮다 : 타당도가 높다
예측 : 모형이 복잡해 해석이 어려워도 예측을 최대한으로 높이는 것이 목적 (신경망,랜덤포레스트와 같은 블랙박스모형, 딥러닝)
추론 : 설명 변수와 반응 변수의 관계를 파악하는 것이 목적 (회귀모형, 의사결정나무)
예측력과 해석력 모두 중요할 때 : 둘은 상충관계에 있기에 오차를 최소화하는 것이 목적
탐색적 데이터분석 : 특성 분석을 위해 데이터 요약, 시각화
통계학습 : 주어진 데이터를 기술하거나 표본을 통해 모집단 성질 추론 (화이트박스 구조, 수학 중점, 작은데이터도 가능, but 가정에 기반한 경우가 대부분이기에 만족여부 확인필요)
기계학습 : 추론보다는 예측 정확도 극대화로 인공지능,패턴인식,컴퓨터비전등 해결 (블랙박스 구조, 경사하강법, 많은 데이터필요, 사전 가정없이도 가능)
모수적 방법 : 모수 추정시 모집단의 분포를 가정 (정규분포로 가정이 대부분), 이상치에 취약, 추정 또는 검정의 효율이 떨어지는 경우 존재(표본의 분포가 정규분포와 거리가 먼 경우, 표본 통계량의 분포가 정규분포에 수렴하는 속도가 느린 경우), ex)t-검정, 분산 분석, 회귀분석
비모수적 방법 : 모집단에 대한 분포함수 가정하지 않음, 연속성을 주로 사용, 대칭성을 추가하기도 함, 모집단의 정규성 가정이 어렵고 표본 수가 작은 경우 이용 (표본 수 클 경우 중심극한정리로 근사 가능하기에), 부호와 순위 또는 순위에 기초한 점수 이용
순수 비모수적 방법 : 모수 자체에 관심을 두지않음
분포 무관 방법 : 검정통계량의 분포와 모집단의 분포가 서로 무관
예측적 방법 : 하나 이상의 입력변수를 기반으로 출력변수 예측 or 인과관계 규명
기술적 방법 : 출력변수 없이 입력변수만 있는 데이터의 관계 파악 (지도, 비지도학습에만 대응)
회귀 : 연속형 수치 예측이 목적, 반응변수가 양적변수 (매출, 방문자수등), ex)MSE,MAPE
분류 : 주어진 데이터를 통해 관측치를 그룹에 분류, 반응변수가 질적변수 (기업부실 예측, 사기탐지등), ex)로지스틱 회귀
차원 축소 : 관측치 수에 비해 변수 수가 많거나 유사한 경우 변수 수를 줄이는 것 (선택 or 합침을 통해서), 보다 많은 정보가 포함되도록 or 목적에 적합하도록 합침, ex) 주성분 분석, 요인 분석, 부분최소제곱법
인과관계의 조건 : 시간우선성, 공변성, 외생 변수 통제

profile
For DE, DA / There is no royal road to learning

0개의 댓글