통계

svenskpotatis·2023년 10월 9일
0

📌 통계학(statistics)

기술통계학(descriptive statistics)

데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론

추론통계학(inferential statistics)

모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론

📌 데이터의 이해

데이터와 그래프

  • 변수 (Variable)
  • 질적 자료 - 명목형 변수, 순서형 변수
  • 양적 자료 - 이산형 변수, 연속형 변수
  • 데이터 시각화 (Data Visualization)

EDA: Exploratory Data Analysis
1. 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
2. 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
3. 변수 간 트렌트, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
4. 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용

데이터의 기초 통계량

  • 기초 통계량
  • 중심 경향치: 평균, 중앙값(median), 최빈값(mode), 절사 평균
  • 산포도: 범위(range), 사분위수(quartile), 분산(variance), 표준편차(standard deviation), 변동 계수(Coefficient of Variation: CV)
  • 사분위수(quartile)
    IQR(interquartile range, 사분위수 범위): Q3 - Q1
  • 왜도(skew), 첨도(kurtosis)

📌 확률 이론 - 확률

  • 확률 (probability)
  • 표본 공간 (Sample Space)

확률의 성질

  • 합사건(union), 곱사건(intersection), 배반사건(mutually exclusive event), 여사건(complement)

조합과 순열

  • ! (Factorial)
  • 순열 (Permutation)
  • 조합 (Combination)
  • 조건부확률 (conditional probability)
  • 확률의 곱셈법칙
  • 베이즈 정리 (Bayes' Theorem)

📌 확률 이론 - 확률변수

확률 변수 (random variable)

  • 확률 변수: X, Y 등 대문자로 표현
  • 확률 변수의 특정값: x, y 등 소문자로 표현
  • 이산 확률 변수 (discrete random variable)
  • 연속 확률 변수 (contiuous random variable)

확률 변수의 평균: 기대값, E(X)


  • 공분산: 2개의 확률변수의 선형 관계를 나타내는 값.

📌 이산형 확률 분포

확률 분포 (probability distribution): 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타낼 확률을 표현한 함수

  • 이산형 확률분포, 연속형 확률분포

📌 연속형 확률 분포

확률밀도함수 (probability density function, pdf)

누적분포함수 (cumulative density function)

균일분포 (uniform distribution)

정규분포 (normal distribution), 가우스 분포

표준 정규 분포 (standard normal distribution)

지수분포 (exponential distribution)

0개의 댓글