목차

TaeWoo Lee / Kris·2022년 6월 28일

Statistics_study

목록 보기

1/1

https://www.youtube.com/channel/UCnN2E8RCEuKi-WLBrd0Nu1A

1-2

평균의 의미 : 자료의 중심값으로서 자료의 특성을 대표하는 값
- 모든 자료로부터 영향을 받는다.(아웃라이어에 취약)
분산의 의미 : 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져있는 평균적인 거리
- 분자부분근은 제곱합
- 분모부분은 자유도
- 분산 -> 제곱합의 평균
표준편차 : 분상에서 루트를 씌워 보정한 값
평균과 분산이 계산이 용이하면서 통계를 통해 참값을 추정하기에 가장 효율적

1-3

p-value : p-값이란 확률값
- 어떤 사건이 우연히 발생할 확률값
  - 일단은 이정도 설명으로 이해하기
- p-값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미 -> 어떤 사건이우연히 발생할 가능성이 없음
  -> 유의하다 (뭔가 의미(이유)가 있다(인과관계가 있다))
- p-값이 0.05보다 크면 이 사건은 우연히 발생했다고 판단

1-4

H0 - 귀무가설
- 우연히 일어났다 라고 가정
H1 or Ha - 대립가설
- 우연히가 아닌 뭔가 이유가 있다 라고 가정

1-5

변수
- 이산형
  - 명목변수/척도
    - 각 범주간 순위가 없다
    - 이름을 대신할 뿐 의미가 없다
    - ex) 성별/인종/혈액형
  - 범주형
    - 각 범주간 순위가 있다
    - 범주에 할당된 값은 범주의 이름뿐만 아니라 순위를 나타낸다
    - ex) 성적/학력/경제수준/리커르트 척도
- 연속형
  - 구간변수/척도
    - 할당된 값은 임의 단위로서 비율이나 절대 0의 의미가 없다 따라서 덧셈은 가능하나 곱셈은 안된다
    - ex) 온도
  - 비율변수/척도
    - 할당된 값은 임의 단위로서 비율이나 절대 0의 의미가 있다 따라서 덧셈은 가능하나 곱셈은 된다
    - ex) 키/몸무게/나이/시간

2-1

상관관계 : 한 변수와 다른 변수가 공변하는 함수관계
- 상관계수는 -1 ~ 1까지만 존재
인과관계 : 원인과 결과를 가지는 변수의 관계
- ex1) 저녁을 먹었기 때문에 배부르다
- ex2) 수입이 있기 때문에 지출이 있다
- ex3) 고객은 만족하기 때문에 재방문하려고 한다

3-1

t-test
- 두 집단이 같은지 다른지 비교하기 위해 사용
- 모집단 : 전체
- 표본(샘플) : 일부

3-2

두 집단 A와 B의 데이터 사이의 평균적인 거리는 X이다
두 집단 A와 B의 데이터들의 표준편차는 B 이다
만약 X가 표준편차 B보다 현저히 작다면 우리는 X의 차이에 큰 의미를 둘 수 없다
그러나 X가 표준편차 B보다 현저히 크다면 우리는 X의 차이에 큰 의미를 둘 수 있을 것이다.

3-3

정규분포
- 정규분포 아래 면적은 확률을 의미 (모든 면적의 합은 1)
표준정규분포
- 평균이 0이고 표준편차가 1인 정규분포
z-score(z값)을 가지고 하는 것을 z-test라고 한다
- 두 데이터 집합의 평균이 분산이 주어질 때 서로 다른지를 확인하는 가설 검정을 의미

3-4

양측검정
단측검정

TaeWoo Lee / Kris

일단 저지르자! 그리고 해결하자!

0개의 댓글