[제로베이스 데이터 취업스쿨] 23.08.01 스터디 노트

김준호·2023년 8월 7일
0

1. 통계학

  • 다량의 데이터를 정리 및 분석하는 방법을 연구하는 수학의 한 분야

2. 기술 통계학

  • 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명 할 수 이쏘록 정리 요약 설명하는 방법론

3. 추론 통계학

  • 모집단으로 부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론

4. 데이터와 그래프

4-1) 데이터

  • 변수(수학) : 정해지지 않은 임의의 값을 표현하기 위한 기호, 변하는 숫자

  • 변수(통계학) : 목적에 따라 관측된 자료값, 컬럼이라고 알고 있으면 된다.

  • 질적자료 : 관측된 데이터가 성별, 주소, 업종 등과 같이 몇개의 범주로 구분하여 표현할 수 있는 데이터

  • 양적자료 : 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있음

EDA(Exploratory Dat Analysis)

  • 데이터를 탐색하는 분석 방법으로 도표, 그래스, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법

목적
1. 데이터 분석 프로젝트 초기에 가성을 수립하기 위해 사용
2. 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
3. 변수 간 트렌드, 패턴 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
4. 분석 데이터에 적절한 평가, 추가 수집, 이상치 발견 등에 활용

5. 기초통계량

  • 통계량은 표본으로 산출한 값으로, 기술 통계량이라고도 표현
  • 통계량을 통해 데이터가 갖는 특성을 이해 할 수 있음

5-1) 중심경향치

  • 표본의 중심을 설명하는 값을 대표값이라 하고 중심경향치 라고 한다.
  • 대표적 중심경향치는 평균이고 중앙값, 최빈값, 절사평균 등이 있다.

평균

중앙값(⭐median)

  • 평균과 같이 자주 사용하는 값으로 표본으로 부터 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값을 의미함
  • 관측치가 홀수 일 경우 중앙에 취하는 값, 짝수일 경우 가운데 두개의 값을 산술평균한 값
  • 이상치가 포함된 데이터에 사용
    평균으로 한다면 압도적으로 높거나 낮은 값이 포함된다면 평균이 전체적으로 변경되어 정확한 대표값을 구할 수 없다

최빈값(mode)

  • 관측치 중에서 가장 많이 관측되는 값
  • 옷사이즈와 같이 명목형 데이터의 경우 사용

분포도 모양

5-2) 산포도

  • 데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 함
  • 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음

범위(range)

  • 데이터의 최대값과 최소값의 차이를 의미

사분위수(quartile)

  • 전체 데이터를 오름차순으로 정렬하여 4등분 했을 때, 첫번째 제 1사분위수(Q1), 두번째를 제 2사분위수(Q2), 세번째를 제 3사분위수(Q3)라고 한다.

백분위수

  • 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말하며, 제 p백분위수는 p%에 위치한 자료값을 말함
  • 데이터를 오름차수로 배열하고 자료가 n개 있을 때, 제(100*p)백분위수는
    1. np가 정수이면, np번째와 (np+1)번째 자료의 평균
    1. np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번쨰 자료

5-3) 분산(variance)

  • 데이터의 분포가 얼마나 흩어져 있는지 알 수 있는 측도
  • 데이터의 각각의 값들의 편차(값-평균) 제곱합

표준편차

  • 분산의 제곱근

모분산

⭐변동계수(CV: Coefficient of Variation)

  • 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 떄 사용
  • 변동계수는 표준편차를 평균으로 나누어 산출해서 단위나 조건에 상관없이 서로 다른 그룹의 산포를 비교해 실제 분석에 자주 사용
  • 비교 기준을 잡아주기 위한 계산식

5-4) 분포도 그래프 모양

왜도(skew): 자료의 분포가 얼마나 비대칭 적인지 표현하는 지표

  • 왜도가 0이면 좌우대칭, 왜도가 0보다 클수록 우측꼬리가 길다.

첨도(kurtosis)

  • 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
  • 첨도값(K)이 0에 가까우면 산포도가 정규분포에 가까움
  • 0보다 작을경우 앏은 분포, 0보다 클 경우 두꺼운 분포

6. 확률

  • 모든 경우의 수에 대한 특정 사건이 발생하는 비율
  • 0~1 사이의 수에 100을 곱하여 0과100 사이의 백분율로 나타냄

6-1) 표본공간

  • 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
  • 동전 던지기 {앞,뒤}, 주사위 던지기{1,2,3,4,5,6}

6-2) P(A)

6-3) 확률의 성질

6-4) 조건부 확률

  • 어떤 사건 A가 발생한 상황에서(주어졌을 때) 또 하나의 사건 B가 발생 할 확률
  • 확률의 곱셈법칙
  • 베이즈 정리
  • 베이즈 정리 예제

7. 확률 변수

  • 표본공간에서 각 사건에 실수를 대응시키는 함수
  • 확률변수의 값은 하나의 사건에 대해 하나의 값을 가지며, 실험의 결과에 의해 변함
  • 일반적으로 확률변수는 대문자로 표현, 확률변수 특정값을 소문자로 표현

7-1) 확률변수의 평균(기대값)

기대값의 성질

7-2) 확률변수의 분산

  • 확률변수의 분산

분산의 성질

공분산

profile
취업공부

0개의 댓글