목차

TaeWoo Lee / Kris·2022년 6월 28일
0

Statistics_study

목록 보기
1/1

1-2

  • 평균의 의미 : 자료의 중심값으로서 자료의 특성을 대표하는 값
    • 모든 자료로부터 영향을 받는다.(아웃라이어에 취약)
  • 분산의 의미 : 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져있는 평균적인 거리
    • 분자부분근은 제곱합
    • 분모부분은 자유도
    • 분산 -> 제곱합의 평균
  • 표준편차 : 분상에서 루트를 씌워 보정한 값
  • 평균과 분산이 계산이 용이하면서 통계를 통해 참값을 추정하기에 가장 효율적

1-3

  • p-value : p-값이란 확률값
    • 어떤 사건이 우연히 발생할 확률값
      • 일단은 이정도 설명으로 이해하기
    • p-값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미 -> 어떤 사건이우연히 발생할 가능성이 없음
      -> 유의하다 (뭔가 의미(이유)가 있다(인과관계가 있다))
    • p-값이 0.05보다 크면 이 사건은 우연히 발생했다고 판단

1-4

  • H0 - 귀무가설
    • 우연히 일어났다 라고 가정
  • H1 or Ha - 대립가설
    • 우연히가 아닌 뭔가 이유가 있다 라고 가정

1-5

  • 변수
    • 이산형
      • 명목변수/척도
        • 각 범주간 순위가 없다
        • 이름을 대신할 뿐 의미가 없다
        • ex) 성별/인종/혈액형
      • 범주형
        • 각 범주간 순위가 있다
        • 범주에 할당된 값은 범주의 이름뿐만 아니라 순위를 나타낸다
        • ex) 성적/학력/경제수준/리커르트 척도
    • 연속형
      • 구간변수/척도
        • 할당된 값은 임의 단위로서 비율이나 절대 0의 의미가 없다 따라서 덧셈은 가능하나 곱셈은 안된다
        • ex) 온도
      • 비율변수/척도
        • 할당된 값은 임의 단위로서 비율이나 절대 0의 의미가 있다 따라서 덧셈은 가능하나 곱셈은 된다
        • ex) 키/몸무게/나이/시간

2-1

  • 상관관계 : 한 변수와 다른 변수가 공변하는 함수관계
    • 상관계수는 -1 ~ 1까지만 존재
  • 인과관계 : 원인과 결과를 가지는 변수의 관계
    • ex1) 저녁을 먹었기 때문에 배부르다
    • ex2) 수입이 있기 때문에 지출이 있다
    • ex3) 고객은 만족하기 때문에 재방문하려고 한다

3-1

  • t-test
    • 두 집단이 같은지 다른지 비교하기 위해 사용
    • 모집단 : 전체
    • 표본(샘플) : 일부

3-2

  • 두 집단 A와 B의 데이터 사이의 평균적인 거리는 X이다
  • 두 집단 A와 B의 데이터들의 표준편차는 B 이다
  • 만약 X가 표준편차 B보다 현저히 작다면 우리는 X의 차이에 큰 의미를 둘 수 없다
  • 그러나 X가 표준편차 B보다 현저히 크다면 우리는 X의 차이에 큰 의미를 둘 수 있을 것이다.

3-3

  • 정규분포
    • 정규분포 아래 면적은 확률을 의미 (모든 면적의 합은 1)
  • 표준정규분포
    • 평균이 0이고 표준편차가 1인 정규분포
  • z-score(z값)을 가지고 하는 것을 z-test라고 한다
    • 두 데이터 집합의 평균이 분산이 주어질 때 서로 다른지를 확인하는 가설 검정을 의미

3-4

  • 양측검정
  • 단측검정
profile
일단 저지르자! 그리고 해결하자!

0개의 댓글