1-2
평균의 의미
: 자료의 중심값으로서 자료의 특성을 대표하는 값
- 모든 자료로부터 영향을 받는다.(아웃라이어에 취약)
분산의 의미
: 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져있는 평균적인 거리
- 분자부분근은 제곱합
- 분모부분은 자유도
- 분산 -> 제곱합의 평균
표준편차
: 분상에서 루트를 씌워 보정한 값
- 평균과 분산이 계산이 용이하면서 통계를 통해 참값을 추정하기에 가장 효율적
1-3
- p-value : p-값이란 확률값
- 어떤 사건이 우연히 발생할 확률값
- p-값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미 -> 어떤 사건이
우연히 발생할 가능성이 없음
-> 유의하다 (뭔가 의미(이유)가 있다(인과관계가 있다))
- p-값이 0.05보다 크면 이 사건은
우연히 발생
했다고 판단
1-4
- H0 - 귀무가설
- H1 or Ha - 대립가설

1-5
- 변수
- 이산형
명목변수/척도
- 각 범주간 순위가 없다
- 이름을 대신할 뿐 의미가 없다
ex) 성별/인종/혈액형
범주형
- 각 범주간 순위가 있다
- 범주에 할당된 값은 범주의 이름뿐만 아니라 순위를 나타낸다
ex) 성적/학력/경제수준/리커르트 척도
- 연속형
구간변수/척도
- 할당된 값은 임의 단위로서 비율이나 절대 0의 의미가 없다 따라서 덧셈은 가능하나 곱셈은 안된다
ex) 온도
비율변수/척도
- 할당된 값은 임의 단위로서 비율이나 절대 0의 의미가 있다 따라서 덧셈은 가능하나 곱셈은 된다
ex) 키/몸무게/나이/시간
2-1
- 상관관계 : 한 변수와 다른 변수가 공변하는 함수관계
- 인과관계 : 원인과 결과를 가지는 변수의 관계
- ex1) 저녁을 먹었기 때문에 배부르다
- ex2) 수입이 있기 때문에 지출이 있다
- ex3) 고객은 만족하기 때문에 재방문하려고 한다
3-1
- t-test
두 집단이 같은지 다른지 비교
하기 위해 사용
- 모집단 : 전체
- 표본(샘플) : 일부
3-2
- 두 집단 A와 B의 데이터 사이의 평균적인 거리는 X이다
- 두 집단 A와 B의 데이터들의 표준편차는 B 이다
- 만약
X가 표준편차 B보다 현저히 작다면
우리는 X의 차이에 큰 의미를 둘 수 없다
- 그러나
X가 표준편차 B보다 현저히 크다면
우리는 X의 차이에 큰 의미를 둘 수 있을 것
이다.
3-3
- 정규분포
- 정규분포 아래 면적은
확률
을 의미 (모든 면적의 합은 1)
- 표준정규분포
- z-score(z값)을 가지고 하는 것을 z-test라고 한다
- 두 데이터 집합의 평균이
분산이 주어질 때 서로 다른지를 확인
하는 가설 검정을 의미
3-4