๋ณ์(Variable) : ์ด๋ค ์ ํด์ง์ง ์์ ์์์ ๊ฐ์ ํํํ๊ธฐ ์ํด ์ฌ์ฉ๋ '๊ธฐํธ', ๋ณํ๋ ์ซ์
์ง์ ์๋ฃ : ๊ด์ธก๋ ๋ฐ์ดํฐ๊ฐ ์ฑ๋ณ, ์ฃผ์์ง(์๊ตฐ๊ตฌ), ์
์ข
๋ฑ๊ณผ ๊ฐ์ด ๋ช ๊ฐ์ ๋ฒ์ฃผ๋ก ๊ตฌ๋ถํ์ฌ ํํํ ์ ์๋ ๋ฐ์ดํฐ
- ๋ฐ์ดํฐ ์
๋ ฅ ์, 1์ ๋จ์, 2๋ ์ฌ์๋ก ํํ์ด ๊ฐ๋ฅํ๋ ์ซ์์ ์๋ฏธ๋ ์์(์์ํ ๋ณ์ : ๊ต์ก์์ค, ๊ฑด๊ฐ์ํ)
์์ ์๋ฃ : ๊ด์ธก๋ ๋ฐ์ดํฐ๊ฐ ์ซ์์ ํํ๋ก ์ซ์์ ํฌ๊ธฐ๊ฐ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์์
- ์ซ์๋ฅผ ํํํ ๋ ์ด์ฐํ ๋ฐ์ดํฐ(์ซ์๊ฐ ๋ฐ๋ก ๋จ์ด์ง๋ ๊ฒ, ex) ์ฑ์ )์ ์ฐ์ํ ๋ฐ์ดํฐ(ex) ํค)๋ก ๊ตฌ๋ถ ๊ฐ๋ฅ
๊ธฐ์ด ํต๊ณ๋ : ํต๊ณ๋(statistic)์ ํ๋ณธ์ผ๋ก ์ฐ์ถํ ๊ฐ, ๊ธฐ์ ํต๊ณ๋์ด๋ผ๊ณ ๋ ํจ
์ค์ฌ ๊ฒฝํฅ์น : ํ๋ณธ(๋ฐ์ดํฐ)๋ฅผ ์ดํดํ๊ธฐ ์ํด์๋ ํ๋ณธ์ ์ค์ฌ์ ๋ํด์ ๊ด์ฌ์ ๊ฐ๊ธฐ ๋๋ฌธ์ ํ๋ณธ์ ์ค์ฌ์ ์ค๋ช
ํ๋ ๊ฐ์ ๋ํ๊ฐ์ด๋ผ๊ณ ํ๋ฉฐ, ์ค์ฌ๊ฒฝํฅ์น๋ผ๊ณ ํจ
- ๋ํ์ ์ธ ์ค์ฌ ๊ฒฝํฅ์น๋ ํ๊ท , ์ค์๊ฐ, ์ต๋น๊ฐ, ์ ์ฌ ํ๊ท ๋ฑ์ด ์๋ค
ํ๊ท : ํ๋ณธ์ผ๋ก ์ถ์ถ๋ ํ๋ณธ ํ๊ท (sample mean). ๋ชจ์ง๋จ์ ํ๊ท ์ ๋ชจํ๊ท ์ด๋ผ๊ณ ํ๋ฉฐ ฮผ๋ผ๊ณ ํ๊ธฐ
์ฐํฌ๋ : ๋ฐ์ดํฐ๊ฐ ์ด๋ป๊ฒ ํฉ์ด์ ธ ์๋์ง๋ฅผ ํ์ธํ๊ธฐ ์ํด ์ค์ฌ๊ฒฝํฅ์น์ ํจ๊ป ์ฐํฌ์ ๋ํ ์ธก๋๋ฅผ ๊ฐ์ด ๊ณ ๋ คํด์ผ ํ๋ค. ๋ฐ์ดํฐ์ ์ฐํฌ๋๋ฅผ ๋ํ๋ด๋ ์ธก๋๋ก๋ ๋ฒ์, ์ฌ๋ถ์์, ๋ถ์ฐ, ํ์คํธ์ฐจ, ๋ณ๋ ๊ณ์ ๋ฑ
๋ฒ์(Range) : ๋ฐ์ดํฐ์ ์ต๋๊ฐ๊ณผ ์ต์๊ฐ์ ์ฐจ์ด๋ฅผ ์๋ฏธ
๐ก ์ฌ๋ถ์์(qurtile) : ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์์ผ๋ก ์ ๋ ฌํ์ฌ 4๋ฑ๋ถ ํ์์ ๋, ์ฒซ ๋ฒ์งธ๋ฅผ ์ 1 ์ฌ๋ถ์์(Q1), ๋ ๋ฒ์งธ๋ฅผ ์ 2 ์ฌ๋ถ์์(Q2), ์ธ ๋ฒ์งธ๋ฅผ ์ 3 ์ฌ๋ถ์์(Q3)๋ผ๊ณ ํ๋ค
- ์ฌ๋ถ์์ ๋ฒ์(IQR : interquartile range) : ์ 3 ์ฌ๋ถ์์(Q3) - ์ 1 ์ฌ๋ถ์์(Q1)
๋ฐฑ๋ถ์์(percentile) : ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์์ผ๋ก ์ ๋ ฌํ์ฌ ์ฃผ์ด์ง ๋น์จ์ ์ํด ๋ฑ๋ถํ ๊ฐ. ์ p๋ฐฑ๋ถ์์๋ p%์ ์์นํ ์๋ฃ ๊ฐ์ ๋งํ๋ค.
- ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์๋ก ๋ฐฐ์ดํ๊ณ ์๋ฃ๊ฐ n๊ฐ๊ฐ ์์ ๋, ์ (100*p) ๋ฐฑ๋ถ์์๋ ๋ค์๊ณผ ๊ฐ๋ค
- np๊ฐ ์ ์์ด๋ฉด, np๋ฒ์งธ์ (np + 1)๋ฒ์งธ ์๋ฃ์ ํ๊ท
- np๊ฐ ์ ์๊ฐ ์๋๋ฉด, np๋ณด๋ค ํฐ ์ต์์ ์ ์๋ฅผ m์ด๋ผ๊ณ ํ ๋ m๋ฒ์งธ ์๋ฃ
๋ถ์ฐ : ํฌ๊ธฐ๊ฐ N์ธ ๋ชจ์ง๋จ์ ํ๊ท ์ ฮผ๋ผ๊ณ ํ ๋ ๋ชจํ๊ท ๊ณผ ๋ชจ๋ถ์ฐ์ ๋ค์๊ณผ ๊ฐ๋ค
๐ก ์๋(skew) : ์๋ฃ์ ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋น๋์นญ์ ์ธ์ง ํํํ๋ ์งํ. ์๋๊ฐ 0์ด๋ฉด ์ข์ฐ๊ฐ ๋์นญ, 0์์ ํด์๋ก ์ฐ์ธก๊ผฌ๋ฆฌ๊ฐ ๊ธธ๊ณ , 0์์ ์์์๋ก ์ข์ธก ๊ผฌ๋ฆฌ๊ฐ ๊น
๐ก ์ฒจ๋(kurtosis) : ํ๋ฅ ๋ถํฌ์ ๊ผฌ๋ฆฌ๊ฐ ๋๊บผ์ด ์ ๋๋ฅผ ๋ํ๋ด๋ ์ฒ๋. 3๋ณด๋ค ์์ ๊ฒฝ์ฐ(k<3)์๋ ์ฐํฌ๋ ์ ๊ท๋ถํฌ๋ณด๋ค ๊ผฌ๋ฆฌ๊ฐ ์์ ๋ถํฌ๋ก ํ๋จ. ์ฒจ๋๊ฐ์ด 3๋ณด๋ค ํฐ ์์์ด๋ฉด(K>3) ์ ๊ท๋ถํฌ๋ณด๋ค ๊ผฌ๋ฆฌ๊ฐ ๋๊บผ์ด ๋ถํฌ๋ก ํ๋จ
ํ๋ฅ (probability) : ๋ชจ๋ ๊ฒฝ์ฐ์ ์์ ๋ํ ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ๋ ๋น์จ.
ํ๋ฅ ์ ๊ณ ์ ์ ์ ์ : ์ด๋ค ์ฌ๊ฑด์ ๋ฐ์ ํ๋ฅ ์ ๊ทธ๊ฒ์ด ์ผ์ด๋ ์ ์๋ ๊ฒฝ์ฐ์ ์ ๋ ๊ฐ๋ฅํ ๋ชจ๋ ๊ฒฝ์ฐ์ ์์ ๋๋น์ด๋ค ๋จ ์ด๋ ์ด๋ ํ ์ฌ๊ฑด๋ ๋ค๋ฅธ ์ฌ๊ฑด๋ค๋ณด๋ค ๋ ๋ง์ด ์ผ์ด๋ ์ ์๋ค๊ณ ๊ธฐ๋ํ ๊ทผ๊ฑฐ๊ฐ ์์ ๋, ๊ทธ๋ฌ๋๊น ๋ชจ๋ ์ฌ๊ฑด์ด ๋์ผํ๊ฒ ์ผํ๋ ์ ์๋ค๊ณ ํ ๋์ ์ฑ๋ฆฝํ๋ค
ํ๋ณธ ๊ณต๊ฐ(Sample Space) : ํ๋ณธ ๊ณต๊ฐ์ด๋ ์ด๋ค ์คํ์์ ๋์ฌ ์ ์๋ ๋ชจ๋ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ๋ค์ ์งํฉ.
ํต๊ณ์ ํ๋ฅ ์ ์ : ์ด๋ค ์ํ์ N๋ฒ ๋ฐ๋ณตํ์ ๋, ์ฌ๊ฑด A์ ํด๋นํ๋ ๊ฒฐ๊ณผ๊ฐ r๋ฒ ์ผ์ด๋ ๊ฒฝ์ฐ๋ฅผ r/N์ด๊ณ , ์ฌ๊ฑด A๊ฐ ์ผ์ด๋ ์๋๋์๋ผ๊ณ ํ๋ค. N์ด ๋ฌดํํ ์ปค์ง๋ฉด ์๋๋์๋ ์ผ์ ํ ์๋ก ์๋ ดํ๋๋ฐ ์ด ๊ทนํ๊ฐ์ ์ฌ๊ฑด A์ ํต๊ณ์ ํ๋ฅ ๋๋ ๊ฒฝํ์ ํ๋ฅ ์ด๋ผ๊ณ ํ๋ค
ํ๋ฅ ์ ์ฑ์ง
- ํฉ์ฌ๊ฑด(union) : ์ฌ๊ฑด A ๋๋ ์ฌ๊ฑด B๊ฐ ์ผ์ด๋ ํ๋ฅ AโชB
- ๊ณฑ์ฌ๊ฑด(intersection) : ์ฌ๊ฑด A์ ์ฌ๊ฑด B๊ฐ ๋์์ ์ผ์ด๋ ํ๋ฅ AโฉB
- ๋ฐฐ๋ฐ์ฌ๊ฑด(mutually exclusive event) : ์ฌ๊ฑด A์ ์ฌ๊ฑด B๊ฐ ๋์์ ์ผ์ด๋ ์ ์์ ๊ฒฝ์ฐ AโฉB = โฎ
- ์ฌ์ฌ๊ฑด(complement) : ์ฌ๊ฑด A๊ฐ ์ผ์ด๋์ง ์์ ํ๋ฅ A^c
ํ๋ฅ ์ ์ฑ์ง
1) ํ๋ฅ ์ ๋ง์
๋ฒ์น : : P(AโชB) = P(A) - P(B) - P(AโฉB)
2) A์ B๊ฐ ๋ฐฐ๋ฐ ์ฌ๊ฑด์ด๋ฉด, P(AโฉB) = P(โฎ) = 0
3) A์ ์ฌ์ฌ๊ฑด์ด A^c ์ด๋ฉด, P(A) + P(A^c) = 1
!(Factorial) : n๊ฐ๋ฅผ ์ผ๋ ฌ๋ก ๋์ฌ ๋์ ๊ฒฝ์ฐ์ ์๋ฅผ n!๋ก ํํ. n! = n(n-1)(n-2)....2*1
์์ด(Permutation) : ์์๋ฅผ ๊ณ ๋ คํ์ฌ n๊ฐ ์ค r๊ฐ๋ฅผ ๋ฝ์์ ๋ฐฐ์ดํ๋ ๊ฒฝ์ฐ์ ์
๊ธฐ๋๊ฐ์ ์ฑ์ง
a, b๊ฐ ์์์ด๊ณ , X, Y๋ฅผ ์์์ ํ๋ฅ ๋ณ์๋ผ๊ณ ํ ๋ ๋ค์์ด ์ฑ๋ฆฝํ๋ค.
a) E(a) = a
b) E(aX) = aE(X)
c) E(aX + b) = aE(X) + b
d) E(aXยฑbY) = aE(X) ยฑ bE(Y)
e) X, Y๊ฐ ๋
๋ฆฝ์ผ ๋ E(XY) = E(X) E(Y)
๋ถ์ฐ์ ์ฑ์ง
a, b๊ฐ ์์์ด๊ณ , X, Y๋ฅผ ์์์ ํ๋ฅ ๋ณ์๋ผ๊ณ ํ ๋ ๋ค์์ด ์ฑ๋ฆฝํ๋ค.
a) Var(a) = 0
b) Var(aX) = aยฒVar(X)
c) Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) โ๊ณต๋ถ์ฐ
d) Var(aX ยฑ bY) = aยฒVar(X) ยฑ bยฒVar(Y) + 2Cov(X, Y)
e) X, Y๊ฐ ๋
๋ฆฝ์ผ ๋ Var(XY) = 0
๐ก ๊ณต๋ถ์ฐ : 2๊ฐ์ ํ๋ฅ ๋ณ์๋ฅผ ์ ํ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ ๊ฐ์ผ๋ก, ํ๋์ ๊ฐ์ด ์์นํ ๋ ๋ค๋ฅธ๊ฐ๋ ์์นํ๋ค๋ฉด, ์์ ๊ณต๋ถ์ฐ์ ๊ฐ์ง๊ณ , ๋ฐ๋๋ก ํ๋์ ๊ฐ์ด ์์นํ ๋ ํ๋ฝํ๋ค๋ฉด ์์ ๊ณต๋ถ์ฐ์ ๊ฐ์ง๋ค.
์์) ์ถ๊ตฌ์ ์์ ํจ๋ํฐํฅ ์ฑ๊ณต๋ฅ ์ด 80%์ผ๋, 10๋ฒ์ ๊ธฐํ์์ ์ฑ๊ณตํ์์ ๊ทธ ํ๋ฅ ์ ๊ตฌํ๋ฉด ์๋์ ๊ฐ์
ํฌ์์ก ๋ถํฌ(Poisson distribution) : ์ด๋ ํฌ๊ทํ ์ฌ๊ฑด์ด ์ด๋ค ์ผ์ ํ ์๊ฐ๋์ ํน์ ํ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ ๋ถํฌ.
์์) ์ผ๊ตฌ์ฅ์์ ํ์ธ๋ณผ์ ์ก์ ํ์, ๋ฒ์ค ์ ๋ฅ์ฅ์์ ํน์ ๋ฒ์ค๊ฐ 5๋ถ ์ด๋ด์ ๋์ฐฉํ ํ์, 1๋
๊ฐ ์ง๊ตฌ์ 1๋ฏธํฐ ์ด์์ ์ด์์ด ๋จ์ด์ง๋ ์
ํฌ์์ก ๋ถํฌ์ ์กฐ๊ฑด
์์
ํจ์
์ดํญ๋ถํฌ : BINOM.DIST(X, N, P, ๋์ ์ฌ๋ถ)
ํฌ์์ก๋ถํฌ: POISSON.DIST(X, ร, ๋์ ์ฌ๋ถ)
(1์ด๋ฉด ๋์
์์) ์ถ๊ตฌ์ ์ ์ํฅ๋ฏผ์ ํ๋๊ณจ ์ฑ๊ณต ํ๋ฅ ์ด 30%์ผ ๋, 5๋ฒ์งธ ์ํ ์์ ๊ณจ์ ๋ฃ์ ํ๋ฅ ๋ถํฌ
์์) ๋๊ตฌ ์ ์ ํํ์ ์์ ํฌ ์ฑ๊ณต ํ๋ฅ ์ด 90%์ผ ๋, 3๋ฒ์งธ ์คํจ๊ฐ ๋์ฌ ๋ ๊น์ง ์ฑ๊ณต์ํจ ์์ ํฌ๊ฐ 10๋ฒ์ผ ํ๋ฅ
๋ฉด์ : 1, ์ค์ฌ๊ฐ : ฮผ
์ ๊ท๋ถํฌ(normal distribution)์ ํ๊ท ๊ณผ ๋ถ์ฐ
ํ๊ท : E[X] = ฮผ
๋ถ์ฐ : Var[X] = ฯยฒ, ํ์คํธ์ฐจ = ฯ
ํ์ค์ ๊ท๋ถํฌ(standard normal distribution) : ํ๋ฅ ๋ณ์ X ~ N(ฮผ, ฯยฒ) ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ ํ๋ฅ ๋ณ์ Z = (X - ฮผ) / ฯ๋ผ๊ณ ํ ๋ ํ๋ฅ ๋ณ์ Z ~ N(0, 1)
์์1) P[Z โค 1.96] = 0.975
์์2) P[Z โค -1.96] = 1 - [Z โค -1.96] = 0.025
์์3) P[0.5 Z โค -1.96] = 0.975 - 0.6915 = 0.28354
1. X ~ N(ฮผ, ฯยฒ) ์ผ ๋, ์์์ ์์ a, b์ ๋ํ์ฌ aX + b ~N(aฮผ + b(E(aX + b) = aE(x) + b), aยฒaยฒ(Var(aX + b) = aยฒVar(X)))
2. X ~ N(ฮผ, ฯยฒ) ์ผ ๋, Z = (X - ฮผ) / ฯ, Z ~ N(0, 1)
3. X ~ N(ฮผโ, ฯโยฒ), Y ~ N(ฮผโ, ฯโยฒ)์ด๊ณ , X์ Y๊ฐ ๋
๋ฆฝ์ผ ๋ aX + bY ~ N(aฮผโ+ bฮผโ, aยฒaโยฒ + bยฒฯโยฒ)
์์) X ~ N(100, 10ยฒ) ์ผ ๋, P[100 โค X โค 110]์ ๊ตฌํ์์ค
P[100 โค X โค 110] = P((100-100)/10 โค (X-100)/10 โค (110-100)/10) = P(0 โค Z โค 1) = 0.8413 - 0.5 = 0.3413
์์) ๋ฒ์ค ์ ๋ฅ์ฅ์์ 100๋ฒ ๋ฒ์ค๊ฐ ๋์ฐฉํ๋ ํ์๊ฐ ํฌ์์ก ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๋ฉด, ์ฒซ ๋ฒ์งธ ๋ฒ์ค๊ฐ ๋์ฐฉํ ๋๊น์ง ๋๊ธฐ ์๊ฐ์ ๋ถํฌ๊ฐ ์ง์๋ถํฌ์
์ง์๋ถํฌ๋ ์ฐ์๋๋ ์ฌ๊ฑด์ ์ฌ์ด์ ๋๊ธฐ ์๊ฐ๋ ์ง์ ๋ถํฌ๋ค. ์ฆ ์์ ์์์์ ๋ ๋ฒ์งธ ๋ฒ์ค๊ฐ ๋์ฐฉํ๊ณ ์ธ ๋ฒ์งธ ๋ฒ์ค๊ฐ ๋์ฐฉํ ๋๊น์ง ๋๊ธฐ ์๊ฐ์ ๋ถํฌ๋ ์ง์๋ถํฌ์ด๋ค
์ง์๋ถํฌ์ ํ๊ท ๊ณผ ๋ถ์ฐ
ํ๊ท : E(X) = 1 / ฮป
๋ถ์ฐ : Var(X) = 1 / ฮปยฒ
์ง์๋ถํฌ์ ๋ฌด๊ธฐ์ต์ฑ(Memoryless Property)
๋ชจ์ง๋จ(Population) : ๋ชจํ๊ท (ฮผ), ๋ชจ๋ถ์ฐ(ฯยฒ)
ํ๋ณธ(Sample) : ํ๋ณธํ๊ท , ํ๋ณธ๋ถ์ฐ
ํ๋ณธ์ถ์ถ(Sampling) : ๋ชจ์ง๋จ์ผ๋ก๋ถํฐ ํ๋ณธ์ ์ถ์ถํ๋ ๊ฒ. ํ๋ณธ์๋ถํฐ ๊ทธ ํน์ฑ์ ์ฐพ์๋ด๊ณ ๋ชจ์ง๋จ์ ํน์ฑ์ ์ถ๋ก ํ๊ณ ์ ํจ
- ๋ณต์์ถ์ถ(Sampling with replacement) : ๋ชจ์ง๋จ์์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ ๋ ํ๋๋ฅผ ์ถ์ถํ๊ณ ๋ค์ ๋ฃ๊ณ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋์ผํ ํ๋ณธ์ด ์ถ์ถ๋ ์ ์๋ค
- ๋น๋ณต์์ถ์ถ(Sampling without replacement) : ๋ชจ์ง๋จ์์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ ๋ ํ๋๋ฅผ ์ถ์ถํ๊ณ ๋ค์ ๋ฃ์ง ์๊ณ ์ถ์ถํ๋ ๋ฐฉ๋ฒ
- Random Sampling : ๋ชจ์ง๋จ์์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ ๋ ์ฃผ์ํ ์ ์ ํธํฅ๋์ง ์์์ผ ํ๋ค. ๊ฐ ๊ฐ์ฒด๊ฐ ๋ชจ๋ ๋์ผํ ํ๋ฅ ๋ก ์ถ์ถํ๋ ๋ฐฉ๋ฒ
๋ถ๊ท ํ ๋ฐ์ดํฐ(Imbalanced Data)์ ๋ฌธ์
1) Sampling ๊ธฐ๋ฒ์ ํตํ์ฌ ํด๊ฒฐ
2) ๋ชจ๋ธ์ ํตํ ์ฑ๋ฅ ๊ฐ์ (ex: Cost-sensitive learning)
ํ๋ณธ๋ถํฌ(Sampling distribution) : ํต๊ณ๋๋ค์ด ์ด๋ฃจ๋ ๋ถํฌ
ํ๋ณธ ํ๊ท (Sample mean)
์นด์ด์ ๊ณฑ ๋ถํฌ(Chi-square distribution) : ํ๋ฅ ๋ณ์ Zโยฒ, Zโยฒ, ...Znยฒ๊ฐ ํ์ค ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ ๋ค๋ฉด, ํ๋ฅ ๋ณ์๋ Zโยฒ + Zโยฒ + ... + Znยฒ
Z ~ Xยฒ(ฮฝ) , Z๊ฐ ์นด์ด์ ๊ณฑ ๋ถํฌ๋ฅผ ๋ฐ๋ฅผ ๋
์นด์ด์ ๊ณฑ ๋ถํฌ๋ ๊ฐ๋ง ๋ถํฌ์์ a = ฮฝ / 2, ฮป = 2์ ๊ฐ์
์นด์ด์ ๊ณฑ ๋ถํฌ๋ ๋ฒ์ฃผํ ์๋ฃ ๋ถ์์์ ํ์ฉ
โญ ์์ ๋(degree of freedom) : ํ๋ณธ์ - ์ ์ฝ์กฐ๊ฑด์ ์ ๋๋ ํ๋ณธ์ - ์ถ์ ํด์ผ ํ๋ ๋ชจ์์ ์๋ฅผ ์๋ฏธํ๋ฉฐ ์ผ๋ฐ์ ์ผ๋ก n - 1์ ์ฌ์ฉํจ.
ex) ํ๋ณธ์ ํฌ๊ธฐ๊ฐ 5์ด๊ณ , ํ๋ณธ ํ๊ท ์ด 3์ผ๋ก ์ ํด์ก๋ค๋ฉด, ์ซ์ 4๊ฐ๋ ์์ ๋กญ๊ฒ ์ ํ ์ ์์ผ๋ ๋ง์ง๋ง ํ๋์ ์ซ์๋ ๋๋จธ์ง ๋ค ๊ฐ์ ์ซ์์ ์ํด ๊ฒฐ์ . 1, 2, 3, 4๋ฅผ ๊ณจ๋๋ค๋ฉด ๋ง์ง๋ง ์ซ์๋ ์๋์ผ๋ก 5๊ฐ ๋์ด์ผ ํ๊ท ์ด 5๋ก ์ ํด์ ธ ์๋ค
์นด์ด์ ๊ณฑ ๋ถํฌ๋ ์์ ๋ ฮฝ์ ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ชจ์์ด ๋ฌ๋ผ์ง๋ค. ์์ ๋๊ฐ ์ปค์ง์๋ก ๋ถํฌ๊ฐ ์ข์ฐ ๋์นญ ํํ๋ก ๋๋ค
โญ ์นด์ด์ ๊ณฑ ๋ถํฌ๋ ์์ ๋๊ฐ ์ปค์ง๋ฉด์ ํ์ค์ ๊ท๋ถํฌ์ ๊ทผ์ฌํ๋ฉฐ, ฮฝ โฅ 30์ด๋ฉด, ํ๋ฅ ์ ๊ทผ์ฌ์ ์ผ๋ก ์ ๊ท๋ถํฌ๋ก ๊ตฌํ ์ ์์
์ถ์ (estimation) : ๋ชจ์ง๋จ์ ๋ชจ์๋ฅผ ๋ชจ๋ฅผ ๊ฒฝ์ฐ ํ๋ณธ์ผ๋ก ์ถ์ถ๋ ํต๊ณ๋์ ๋ชจ์ง๋จ์ ๊ทผ์ฌ๊ฐ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ
์ถ์ ๋(estimator) : ํ๋ณธ ํ๊ท ์ผ๋ก ๋ชจํ๊ท ์ ์ถ์ ํ ๋ ํ๋ณธ ํ๊ท ์ ๋ชจํ๊ท ์ ๋ํ ์ถ์ ๋์ด๋ผ๊ณ ํ๋ค
๋ชจ์๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ : ์ ์ถ์ (point estimation) ๊ณผ ๊ตฌ๊ฐ์ถ์ (interval estimation)
์ ํจ์ฑ(efficiency) : ์ถ์ ๋์ ๋ถ์ฐ์ด ์ต์๊ฐ์ด์ด์ผ ํ๋ค. ๋ชจ์์ ๋ํ ์ถ์ ๋์ ๋ถ์ฐ์ด ์์์๋ก ์ถ์ ๋์ด ํจ์จ์ ์ด๋ค.
ํ๊ท ์ค์ฐจ์ ๊ณฑ(Mean Squared Error : MSE) : ํ๊ท ์ค์ฐจ์ ๊ณฑ์ด ์ต์๊ฐ์ด์ด์ผ ํ๋ค
๊ตฌ๊ฐ์ถ์ : ๋ชจ์๊ฐ ํฌํจ๋ ์ ์๋ ๊ตฌ๊ฐ์ ์ถ์ ํ๋ ๋ฐฉ๋ฒ
์ ๋ขฐ๊ตฌ๊ฐ(confidence level) : ์ถ์ ๊ฐ์ด ์กด์ฌํ๋ ๊ตฌ๊ฐ์ ๋ชจ์๊ฐ ํฌํจ๋ ํ๋ฅ
์ ๋ขฐ์์ค์ 100 * (1 - ฮฑ)%๋ก ๊ณ์ฐํ๋ฉฐ, ฮฑ๋ ์ค์ฐจ์์ค
์ ๋ขฐ์์ค 95%๋ผ๋ ๊ฒ์ ๊ตฌ๊ฐ ์ถ์ ๋ ๊ฐ์ ์ค์ฐจ๊ฐ ๋ฐ์ํ ํ๋ฅ ์ด 5%๋ผ๋ ๊ฒ์ ์๋ฏธํ๋ค
์ด ์ค์ฐจ๋ฅผ ์ ์์์ค(significant level)์ด๋ผ๊ณ ํ๋ฉฐ, p = 0.05๋ผ๊ณ ํ๋ค
์ ๋ขฐ๊ตฌ๊ฐ์ ์ ๋ขฐ ํํ, ์ ๋ขฐ ์ํ์ผ๋ก ํ์ํ๋ฉฐ ์๋์ ๊ฐ์ ์์์ผ๋ก ํํ (์ถ์ ํ๋ ๋ชจ์๊ฐ ฮธ)
๋ชจ๋น์จ์ ์ ์ถ์
๋น์จ์ ๋ํ ์ฃผ์ ์ผ๋ก ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์์ฑ(class)์ ์ํ๋ฉด '1'์๋๋ฉด '0'์ผ ๋, 1์ ์์ฑ์ ๊ฐ๋ ๊ฒ์ ๊ฐ์๋ฅผ X๋ผ๊ณ ํ๋ฉด X ~ B(n,p)
์ด ๋ ๋ชจ๋น์จ์ ์ ์ถ์ ๋์ ํ๋ณธ ๋น์จ(sample proportion)์ด๋ผ๊ณ ํจ
๋ชจ๋น์จ์ ๊ตฌ๊ฐ ์ถ์
๋ชจ๋น์จ ๊ตฌ๊ฐ ์ถ์ ์์๋ ์ ๊ท๋ถํฌ์ ๊ทผ์ฌ๊ฐ ๊ฐ๋ฅํ ๋ํ๋ณธ์ ๋ณดํต np > 5, n(1-p)> 5๋ฅผ ๋์์ ๋ง์กฑํด์ผ ํ๋ค
๋ชจํ๊ท ์ฐจ์ด์ ์ถ์ (๊ตฌ๊ฐ์ถ์ : ์ํ๋ณธ, ๋ชจ๋ถ์ฐ์ ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ)
- ๋ ๋ชจ์ง๋จ์ ๋ถ์ฐ์ ์๋ ๊ฒฝ์ฐ์๋ ๋ํ๋ณธ๊ณผ ๋์ผํ๊ฒ ์ถ์ ๊ฐ๋ฅํ์ง๋ง, ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ์๋ ๋ฑ๋ถ์ฐ ๊ฐ์ ์ด ํ์(๋ ๋ชจ์ง๋จ์ ๋ถ์ฐ์ด ๊ฐ๋ค๋ ๊ฐ์ ์ด ํ์ ฯโยฒ, ฯโยฒ = ฯยฒ)
ํฉ๋ ๋ถ์ฐ ์ถ์ ๋(pooled variance estimator) : ๊ณตํต ๋ถ์ฐ์ ์ถ์ ๋
โป excel
๐ป ์ถ์ฒ : ์ ๋ก๋ฒ ์ด์ค ๋ฐ์ดํฐ ์ทจ์ ์ค์ฟจ