๐Ÿ˜ข ์Šคํ„ฐ๋””๋…ธํŠธ(ํ†ต๊ณ„ํ•™ 1)

zoeยท2023๋…„ 5์›” 1์ผ
0
  • ํ†ต๊ณ„ํ•™ : ์‚ฐ์ˆ ์  ๋ฐฉ๋ฒ•์„ ๊ธฐ์ดˆ๋กœ ํ•˜์—ฌ, ์ฃผ๋กœ ๋‹ค๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ด€์ฐฐํ•˜๊ณ  ์ •๋ฆฌ ๋ฐ ๋ถ„์„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์—ฐ๊ตฌํ•˜๋Š” ์ˆ˜ํ•™์˜ ํ•œ ๋ถ„์•ผ
  • ๊ธฐ์ˆ ํ†ต๊ณ„ํ•™ : ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ณ  ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ •๋ฆฌ ์š”์•ฝ ์„ค๋ช…ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก 
  • ์ถ”๋ก ํ†ต๊ณ„ํ•™ : ๋ชจ์ง‘๋‹จ์œผ๋กœ๋ถ€ํ„ฐ ์ถ”์ถœํ•œ ํ‘œ๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๋ชจ์ง‘๋‹จ์˜ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ํŠน์„ฑ์„ ์ถ”์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก 



๋ฐ์ดํ„ฐ์˜ ์ดํ•ด

  • ๋ณ€์ˆ˜(Variable) : ์–ด๋–ค ์ •ํ•ด์ง€์ง€ ์•Š์€ ์ž„์˜์˜ ๊ฐ’์„ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋œ '๊ธฐํ˜ธ', ๋ณ€ํ•˜๋Š” ์ˆซ์ž

  • ์งˆ์ ์ž๋ฃŒ : ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์„ฑ๋ณ„, ์ฃผ์†Œ์ง€(์‹œ๊ตฐ๊ตฌ), ์—…์ข… ๋“ฑ๊ณผ ๊ฐ™์ด ๋ช‡ ๊ฐœ์˜ ๋ฒˆ์ฃผ๋กœ ๊ตฌ๋ถ„ํ•˜์—ฌ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ
    - ๋ฐ์ดํ„ฐ ์ž…๋ ฅ ์‹œ, 1์€ ๋‚จ์ž, 2๋Š” ์—ฌ์ž๋กœ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋‚˜ ์ˆซ์ž์˜ ์˜๋ฏธ๋Š” ์—†์Œ(์ˆœ์„œํ˜• ๋ณ€์ˆ˜ : ๊ต์œก์ˆ˜์ค€, ๊ฑด๊ฐ•์ƒํƒœ)

  • ์–‘์ ์ž๋ฃŒ : ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ˆซ์ž์˜ ํ˜•ํƒœ๋กœ ์ˆซ์ž์˜ ํฌ๊ธฐ๊ฐ€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Œ
    - ์ˆซ์ž๋ฅผ ํ‘œํ˜„ํ•  ๋•Œ ์ด์‚ฐํ˜• ๋ฐ์ดํ„ฐ(์ˆซ์ž๊ฐ€ ๋ฐ”๋กœ ๋–จ์–ด์ง€๋Š” ๊ฒƒ, ex) ์„ฑ์ )์™€ ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ(ex) ํ‚ค)๋กœ ๊ตฌ๋ถ„ ๊ฐ€๋Šฅ



  • EDA(Exploratory Data Analysis) : ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๋ถ„์„ ๋ฐฉ๋ฒ•. ๋„ํ‘œ, ๊ทธ๋ž˜ํ”„, ์š”์•ฝํ†ต๊ณ„ ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•˜๋Š” ํ•˜๋‚˜์˜ ๋ฐฉ๋ฒ•
    - ๋ชฉ์ 
    - ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”„๋กœ์ ํŠธ ์ดˆ๊ธฐ์— ๊ฐ€์„ค์„ ์ˆ˜๋ฆฝํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ
    - ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”„๋กœ์ ํŠธ ์ดˆ๊ธฐ์— ์ ์ ˆํ•œ ๋ชจ๋ธ ๋ฐ ๊ธฐ๋ฒ•์˜ ์„ ์ •
    - ๋ณ€์ˆ˜ ๊ฐ„ ํŠธ๋ Œ๋“œ, ํŒจํ„ด, ๊ด€๊ณ„ ๋“ฑ์„ ์ฐพ๊ณ  ํ†ต๊ณ„์  ์ถ”๋ก ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ€์ •์„ ํ‰๊ฐ€
    - ๋ถ„์„ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์ ˆํ•œ๊ฐ€ ํ‰๊ฐ€, ์ถ”๊ฐ€ ์ˆ˜์ง‘, ์ด์ƒ์น˜ ๋ฐœ๊ฒฌ ๋“ฑ์— ํ™œ์šฉ



  • ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”(data visualization) : ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ์‰ฝ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ์‹œ๊ฐ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ  ์ „๋‹ฌ๋˜๋Š” ๊ณผ. ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”์˜ ๋ชฉ์ ์€ ๋„ํ‘œ(graph)๋ผ๋Š” ์ˆ˜๋‹จ์„ ํ†ตํ•ด ์ •๋ณด๋ฅผ ๋ช…ํ™•ํ•˜๊ณ  ํšจ๊ณผ์ ์œผ๋กœ ์ „๋‹ฌํ•˜๋Š” ๊ฒƒ
  • ์‹œ๊ฐ„ ์‹œ๊ฐํ™” : ์ฃผ์š” ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ• - ๋ง‰๋Œ€๊ทธ๋ž˜ํ”„, ๋ˆ„์  ๋ง‰๋Œ€๊ทธ๋ž˜ํ”„, ์ ๊ทธ๋ž˜ํ”„
  • ๋ถ„ํฌ ์‹œ๊ฐํ™” : ํŒŒ์ด์ฐจํŠธ, ๋„๋„›์•„ํŠธ, ํŠธ๋ฆฌ๋งต, ๋ˆ„์  ์—ฐ์† ๊ทธ๋ž˜ํ”„
  • ๊ด€๊ณ„ ์‹œ๊ฐํ™” : ์Šค์บํ„ฐํ”Œ๋กฏ, ๋ฒ„ํ”Œ์ฐจํŠธ, ํžˆ์Šคํ† ๊ทธ๋žจ
  • ๋น„๊ต ์‹œ๊ฐํ™” : ํžˆํŠธ๋งต, ์Šคํƒ€์ฐจํŠธ, ํ‰ํ–‰ ์ขŒํ‘œ๊ณ„, ๋‹ค์ฐจ์› ํ„ฑ๋„๋ฒ•
  • ๊ณต๊ฐ„ ์‹œ๊ฐํ™” : ์ง€๋„๋งตํ•‘




  • ๊ธฐ์ดˆ ํ†ต๊ณ„๋Ÿ‰ : ํ†ต๊ณ„๋Ÿ‰(statistic)์€ ํ‘œ๋ณธ์œผ๋กœ ์‚ฐ์ถœํ•œ ๊ฐ’, ๊ธฐ์ˆ ํ†ต๊ณ„๋Ÿ‰์ด๋ผ๊ณ ๋„ ํ•จ

  • ์ค‘์‹ฌ ๊ฒฝํ–ฅ์น˜ : ํ‘œ๋ณธ(๋ฐ์ดํ„ฐ)๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ‘œ๋ณธ์˜ ์ค‘์‹ฌ์— ๋Œ€ํ•ด์„œ ๊ด€์‹ฌ์„ ๊ฐ–๊ธฐ ๋•Œ๋ฌธ์— ํ‘œ๋ณธ์˜ ์ค‘์‹ฌ์„ ์„ค๋ช…ํ•˜๋Š” ๊ฐ’์„ ๋Œ€ํ‘œ๊ฐ’์ด๋ผ๊ณ  ํ•˜๋ฉฐ, ์ค‘์‹ฌ๊ฒฝํ–ฅ์น˜๋ผ๊ณ  ํ•จ
    - ๋Œ€ํ‘œ์ ์ธ ์ค‘์‹ฌ ๊ฒฝํ–ฅ์น˜๋Š” ํ‰๊ท , ์ค‘์•™๊ฐ’, ์ตœ๋นˆ๊ฐ’, ์ ˆ์‚ฌ ํ‰๊ท  ๋“ฑ์ด ์žˆ๋‹ค

  • ํ‰๊ท  : ํ‘œ๋ณธ์œผ๋กœ ์ถ”์ถœ๋œ ํ‘œ๋ณธ ํ‰๊ท (sample mean). ๋ชจ์ง‘๋‹จ์˜ ํ‰๊ท ์„ ๋ชจํ‰๊ท ์ด๋ผ๊ณ  ํ•˜๋ฉฐ ฮผ๋ผ๊ณ  ํ‘œ๊ธฐ

  • ์ค‘์•™๊ฐ’(median) : ํ‰๊ท ๊ณผ ๊ฐ™์ด ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ๊ฐ’. ํ‘œ๋ณธ์œผ๋กœ๋ถ€ํ„ฐ ๊ด€์ธก์น˜๋ฅผ ํฌ๊ธฐ์ˆœ์œผ๋กœ ๋‚˜์—ดํ–ˆ์„ ๋•Œ, ๊ฐ€์šด๋ฐ ์œ„์น˜ํ•˜๋Š” ๊ฐ’.
    - ๊ด€์ธก์น˜๊ฐ€ ํ™€์ˆ˜์ผ ๊ฒฝ์šฐ ์ค‘์•™์— ์ทจํ•˜๋Š” ๊ฐ’, ์ง์ˆ˜์ผ ๊ฒฝ์šฐ ๊ฐ€์šด๋ฐ ๋‘ ๊ฐ’์„ ์‚ฐ์ˆ  ํ‰๊ท ํ•œ ๊ฐ’
    - ์ด์ƒ์น˜๊ฐ€ ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ์‚ฌ์šฉ
  • ์ตœ๋นˆ๊ฐ’(mode) : ๊ด€์ธก์น˜ ์ค‘์—์„œ ๊ฐ€์žฅ ๋งŽ์ด ๊ด€์ธก๋˜๋Š” ๊ฐ’. ์˜ท์‚ฌ์ด์ฆˆ์™€ ๊ฐ™์ด ๋ช…๋ชฉํ˜• ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ ์‚ฌ์šฉ



  • ์‚ฐํฌ๋„ : ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ป๊ฒŒ ํฉ์–ด์ ธ ์žˆ๋Š”์ง€๋ฅผ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์ค‘์‹ฌ๊ฒฝํ–ฅ์น˜์™€ ํ•จ๊ป˜ ์‚ฐํฌ์— ๋Œ€ํ•œ ์ธก๋„๋ฅผ ๊ฐ™์ด ๊ณ ๋ คํ•ด์•ผ ํ•œ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ์‚ฐํฌ๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ธก๋„๋กœ๋Š” ๋ฒ”์œ„, ์‚ฌ๋ถ„์œ„์ˆ˜, ๋ถ„์‚ฐ, ํ‘œ์ค€ํŽธ์ฐจ, ๋ณ€๋™ ๊ณ„์ˆ˜ ๋“ฑ

  • ๋ฒ”์œ„(Range) : ๋ฐ์ดํ„ฐ์˜ ์ตœ๋Œ€๊ฐ’๊ณผ ์ตœ์†Œ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ์˜๋ฏธ

  • ๐Ÿ’ก ์‚ฌ๋ถ„์œ„์ˆ˜(qurtile) : ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์˜ค๋ฆ„์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌํ•˜์—ฌ 4๋“ฑ๋ถ„ ํ•˜์˜€์„ ๋•Œ, ์ฒซ ๋ฒˆ์งธ๋ฅผ ์ œ 1 ์‚ฌ๋ถ„์œ„์ˆ˜(Q1), ๋‘ ๋ฒˆ์งธ๋ฅผ ์ œ 2 ์‚ฌ๋ถ„์œ„์ˆ˜(Q2), ์„ธ ๋ฒˆ์งธ๋ฅผ ์ œ 3 ์‚ฌ๋ถ„์œ„์ˆ˜(Q3)๋ผ๊ณ  ํ•œ๋‹ค
    - ์‚ฌ๋ถ„์œ„์ˆ˜ ๋ฒ”์œ„(IQR : interquartile range) : ์ œ 3 ์‚ฌ๋ถ„์œ„์ˆ˜(Q3) - ์ œ 1 ์‚ฌ๋ถ„์œ„์ˆ˜(Q1)

  • ๋ฐฑ๋ถ„์œ„์ˆ˜(percentile) : ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์˜ค๋ฆ„์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌํ•˜์—ฌ ์ฃผ์–ด์ง„ ๋น„์œจ์— ์˜ํ•ด ๋“ฑ๋ถ„ํ•œ ๊ฐ’. ์ œ p๋ฐฑ๋ถ„์œ„์ˆ˜๋Š” p%์— ์œ„์น˜ํ•œ ์ž๋ฃŒ ๊ฐ’์„ ๋งํ•œ๋‹ค.
    - ๋ฐ์ดํ„ฐ๋ฅผ ์˜ค๋ฆ„์ฐจ์ˆ˜๋กœ ๋ฐฐ์—ดํ•˜๊ณ  ์ž๋ฃŒ๊ฐ€ n๊ฐœ๊ฐ€ ์žˆ์„ ๋•Œ, ์ œ (100*p) ๋ฐฑ๋ถ„์œ„์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค
    - np๊ฐ€ ์ •์ˆ˜์ด๋ฉด, np๋ฒˆ์งธ์™€ (np + 1)๋ฒˆ์งธ ์ž๋ฃŒ์˜ ํ‰๊ท 
    - np๊ฐ€ ์ •์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ฉด, np๋ณด๋‹ค ํฐ ์ตœ์†Œ์˜ ์ •์ˆ˜๋ฅผ m์ด๋ผ๊ณ  ํ•  ๋•Œ m๋ฒˆ์งธ ์ž๋ฃŒ



  • ๋ถ„์‚ฐ(variance) : ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ํฉ์–ด์ ธ ์žˆ๋Š”์ง€๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋Š” ์ธก๋„. ๋ฐ์ดํ„ฐ์˜ ๊ฐ๊ฐ์˜ ๊ฐ’๋“ค์˜ ํŽธ์ฐจ ์ œ๊ณฑํ•ฉ์œผ๋กœ ๊ณ„์‚ฐ

๋ถ„์‚ฐ : ํฌ๊ธฐ๊ฐ€ N์ธ ๋ชจ์ง‘๋‹จ์˜ ํ‰๊ท ์„ ฮผ๋ผ๊ณ  ํ•  ๋•Œ ๋ชจํ‰๊ท ๊ณผ ๋ชจ๋ถ„์‚ฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค

  • ํ‘œ์ค€ ํŽธ์ฐจ(standard deviation) : ๋ถ„์‚ฐ์˜ ์ œ๊ณฑ๊ทผ์œผ๋กœ ์ •์˜

  • ๐Ÿ’ก ๋ณ€๋™๊ณ„์ˆ˜(Coefficient of Variation : CV) : ํ‰๊ท ์ด ๋‹ค๋ฅธ ๋‘๊ฐœ ์ด์ƒ์˜ ๊ทธ๋ฃน์˜ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ๋น„๊ตํ•  ๋•Œ ์‚ฌ์šฉ. ๋ณ€๋™๊ณ„์ˆ˜๋Š” ๋‘ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ํ‰๊ท ์œผ๋กœ ๋‚˜๋ˆ„์–ด์„œ ์‚ฐ์ถœํ•˜์—ฌ ๋‹จ์œ„๋‚˜ ์กฐ๊ฑด์— ์ƒ๊ด€ ์—†์ด ์„œ๋กœ ๋‹ค๋ฅธ ๊ทธ๋ฃน์˜ ์‚ฐํฌ๋ฅผ ๋น„๊ตํ•˜๋ฉฐ ์‹ค์ œ ๋ถ„์„์—์„œ ์ž์ฃผ ์‚ฌ์šฉ.




  • ๐Ÿ’ก ์™œ๋„(skew) : ์ž๋ฃŒ์˜ ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋น„๋Œ€์นญ์ ์ธ์ง€ ํ‘œํ˜„ํ•˜๋Š” ์ง€ํ‘œ. ์™œ๋„๊ฐ€ 0์ด๋ฉด ์ขŒ์šฐ๊ฐ€ ๋Œ€์นญ, 0์—์„œ ํด์ˆ˜๋ก ์šฐ์ธก๊ผฌ๋ฆฌ๊ฐ€ ๊ธธ๊ณ , 0์—์„œ ์ž‘์„์ˆ˜๋ก ์ขŒ์ธก ๊ผฌ๋ฆฌ๊ฐ€ ๊น€

  • ๐Ÿ’ก ์ฒจ๋„(kurtosis) : ํ™•๋ฅ ๋ถ„ํฌ์˜ ๊ผฌ๋ฆฌ๊ฐ€ ๋‘๊บผ์šด ์ •๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„. 3๋ณด๋‹ค ์ž‘์„ ๊ฒฝ์šฐ(k<3)์—๋Š” ์‚ฐํฌ๋Š” ์ •๊ทœ๋ถ„ํฌ๋ณด๋‹ค ๊ผฌ๋ฆฌ๊ฐ€ ์–‡์€ ๋ถ„ํฌ๋กœ ํŒ๋‹จ. ์ฒจ๋„๊ฐ’์ด 3๋ณด๋‹ค ํฐ ์–‘์ˆ˜์ด๋ฉด(K>3) ์ •๊ทœ๋ถ„ํฌ๋ณด๋‹ค ๊ผฌ๋ฆฌ๊ฐ€ ๋‘๊บผ์šด ๋ถ„ํฌ๋กœ ํŒ๋‹จ



ํ™•๋ฅ  ์ด๋ก  - ํ™•๋ฅ 

  • ํ™•๋ฅ (probability) : ๋ชจ๋“  ๊ฒฝ์šฐ์˜ ์ˆ˜์— ๋Œ€ํ•œ ํŠน์ • ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•˜๋Š” ๋น„์œจ.

  • ํ™•๋ฅ ์˜ ๊ณ ์ „์  ์ •์˜ : ์–ด๋–ค ์‚ฌ๊ฑด์˜ ๋ฐœ์ƒ ํ™œ๋ฅ ์€ ๊ทธ๊ฒƒ์ด ์ผ์–ด๋‚  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜ ๋Œ€ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ๊ฒฝ์šฐ์˜ ์ˆ˜์˜ ๋Œ€๋น„์ด๋‹ค ๋‹จ ์ด๋Š” ์–ด๋– ํ•œ ์‚ฌ๊ฑด๋„ ๋‹ค๋ฅธ ์‚ฌ๊ฑด๋“ค๋ณด๋‹ค ๋” ๋งŽ์ด ์ผ์–ด๋‚  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ธฐ๋Œ€ํ•  ๊ทผ๊ฑฐ๊ฐ€ ์—†์„ ๋•Œ, ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ ๋ชจ๋“  ์‚ฌ๊ฑด์ด ๋™์ผํ•˜๊ฒŒ ์ผํ•˜๋‚  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•  ๋•Œ์— ์„ฑ๋ฆฝํ•œ๋‹ค



  • ํ‘œ๋ณธ ๊ณต๊ฐ„(Sample Space) : ํ‘œ๋ณธ ๊ณต๊ฐ„์ด๋ž€ ์–ด๋–ค ์‹คํ—˜์—์„œ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ๊ฒฐ๊ณผ๋“ค์˜ ์ง‘ํ•ฉ.

  • ํ†ต๊ณ„์˜ ํ™•๋ฅ  ์ •์˜ : ์–ด๋–ค ์‹œํ–‰์„ N๋ฒˆ ๋ฐ˜๋ณตํ–ˆ์„ ๋•Œ, ์‚ฌ๊ฑด A์— ํ•ด๋‹นํ•˜๋Š” ๊ฒฐ๊ณผ๊ฐ€ r๋ฒˆ ์ผ์–ด๋‚œ ๊ฒฝ์šฐ๋ฅผ r/N์ด๊ณ , ์‚ฌ๊ฑด A๊ฐ€ ์ผ์–ด๋‚  ์ƒ๋Œ€๋„์ˆ˜๋ผ๊ณ  ํ•œ๋‹ค. N์ด ๋ฌดํ•œํžˆ ์ปค์ง€๋ฉด ์ƒ๋Œ€๋„์ˆ˜๋Š” ์ผ์ •ํ•œ ์ˆ˜๋กœ ์ˆ˜๋ ดํ•˜๋Š”๋ฐ ์ด ๊ทนํ•œ๊ฐ’์„ ์‚ฌ๊ฑด A์˜ ํ†ต๊ณ„์  ํ™•๋ฅ  ๋˜๋Š” ๊ฒฝํ—˜์  ํ™•๋ฅ ์ด๋ผ๊ณ  ํ•œ๋‹ค

  • ํ™•๋ฅ ์˜ ์„ฑ์งˆ
    - ํ•ฉ์‚ฌ๊ฑด(union) : ์‚ฌ๊ฑด A ๋˜๋Š” ์‚ฌ๊ฑด B๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ  AโˆชB
    - ๊ณฑ์‚ฌ๊ฑด(intersection) : ์‚ฌ๊ฑด A์™€ ์‚ฌ๊ฑด B๊ฐ€ ๋™์‹œ์— ์ผ์–ด๋‚  ํ™•๋ฅ  AโˆฉB
    - ๋ฐฐ๋ฐ˜์‚ฌ๊ฑด(mutually exclusive event) : ์‚ฌ๊ฑด A์™€ ์‚ฌ๊ฑด B๊ฐ€ ๋™์‹œ์— ์ผ์–ด๋‚  ์ˆ˜ ์—†์„ ๊ฒฝ์šฐ AโˆฉB = โˆฎ
    - ์—ฌ์‚ฌ๊ฑด(complement) : ์‚ฌ๊ฑด A๊ฐ€ ์ผ์–ด๋‚˜์ง€ ์•Š์„ ํ™•๋ฅ  A^c

  • ํ™•๋ฅ ์˜ ์„ฑ์งˆ
    1) ํ™•๋ฅ ์˜ ๋ง์…ˆ๋ฒ•์น™ : : P(AโˆชB) = P(A) - P(B) - P(AโˆฉB)
    2) A์™€ B๊ฐ€ ๋ฐฐ๋ฐ˜ ์‚ฌ๊ฑด์ด๋ฉด, P(AโˆฉB) = P(โˆฎ) = 0
    3) A์˜ ์—ฌ์‚ฌ๊ฑด์ด A^c ์ด๋ฉด, P(A) + P(A^c) = 1



  • !(Factorial) : n๊ฐœ๋ฅผ ์ผ๋ ฌ๋กœ ๋Š˜์—ฌ ๋†“์€ ๊ฒฝ์šฐ์˜ ์ˆ˜๋ฅผ n!๋กœ ํ‘œํ˜„. n! = n(n-1)(n-2)....2*1

  • ์ˆœ์—ด(Permutation) : ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•˜์—ฌ n๊ฐœ ์ค‘ r๊ฐœ๋ฅผ ๋ฝ‘์•„์„œ ๋ฐฐ์—ดํ•˜๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜

  • ์กฐํ•ฉ(Combination) : ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  n๊ฐœ ์ค‘ r๊ฐœ๋ฅผ ๋ฝ‘์•„์„œ ๋ฐฐ์—ดํ•˜๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜

  • ์กฐ๊ฑด๋ถ€ํ™•๋ฅ (conditional probablity) : ์–ด๋–ค ์‚ฌ๊ฑด A๊ฐ€ ๋ฐœ์ƒํ•œ ์ƒํ™ฉ์—์„œ(์ฃผ์–ด์กŒ์„ ๋•Œ) ๋˜ ํ•˜๋‚˜์˜ ์‚ฌ๊ฑด B๊ฐ€ ๋ฐœ์ƒํ•  ๊ฒฝ์šฐ

  • ํ™•๋ฅ ์˜ ๊ณฑ์…ˆ๋ฒ•์น™ : P(AโˆฉB) = P(A) P(B|A) = P(B) P(A|B)
    - ์‚ฌ๊ฑด A์™€ B๊ฐ€ ๋…๋ฆฝ์ผ ๊ฒฝ์šฐ, P(AโˆฉB) = P(A) * P(B)
  • ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ(Bayes' Theorem) : ํ‘œ๋ณธ ๊ณต๊ฐ„ S์—์„œ ์„œ๋กœ ๋ฐฐ๋ฐ˜์ธ ์‚ฌ๊ฑด B1, B2 ...Bk์— ์˜ํ•˜์—ฌ ๋ถ„ํ• ๋˜์–ด ์žˆ์„ ๋•Œ, ์ž„์˜์˜ ์‚ฌ๊ฑด A์— ๋Œ€ํ•˜์—ฌ ๋‹ค์Œ์ด ์„ฑ๋ฆฝํ•จ




ํ™•๋ฅ  ์ด๋ก  - ํ™•๋ฅ  ๋ณ€์ˆ˜

  • ํ™•๋ฅ ๋ณ€์ˆ˜(random variable) : ํ‘œ๋ณธ๊ณต๊ฐ„์—์„œ ๊ฐ ์‚ฌ๊ฑด์— ๋Œ€์‘์‹œํ‚ค๋Š” ํ•จ์ˆ˜. ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ๊ฐ’์€ ํ•˜๋‚˜์˜ ์‚ฌ๊ฑด์— ๋Œ€ํ•˜์—ฌ ํ•˜๋‚˜์˜ ๊ฐ’์„ ๊ฐ€์ง€๋ฉฐ, ์‹คํ—˜์˜ ๊ฒฐ๊ณผ์— ์˜ํ•˜์—ฌ ๋ณ€ํ•œ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ํ™•๋ฅ ๋ณ€์ˆ˜๋Š” ๋Œ€๋ฌธ์ž๋กœ ํ‘œํ˜„ํ•˜๋ฉฐ, ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ํŠน์ •๊ฐ’์„ ์†Œ๋ฌธ์ž๋กœ ํ‘œํ˜„ํ•œ๋‹ค.


    - ํ™•๋ฅ ๋ณ€์ˆ˜ : X, Y ๋“ฑ ๋Œ€๋ฌธ์ž๋กœ ํ‘œํ˜„
    - ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ํŠน์ •๊ฐ’ :x, y ๋“ฑ ์†Œ๋ฌธ์ž๋กœ ํ‘œํ˜„
    - ์ด์‚ฐ ํ™•๋ฅ  ๋ณ€์ˆ˜(discrete random variable) : ์…€ ์ˆ˜ ์žˆ๋Š” ๊ฐ’๋“ค๋กœ ๊ตฌ์„ฑ๋˜๊ฑฐ๋‚˜ ์ผ์ • ๋ฒ”์œ„๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒฝ์šฐ
    - ์—ฐ์† ํ™•๋ฅ  ๋ณ€์ˆ˜(continuous random variable) : ์—ฐ์†ํ˜• ๋˜๋Š” ๋ฌดํ•œ๋Œ€์™€ ๊ฐ™์ด ์…€ ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ
    - ํ™•๋ฅ ๋ณ€์ˆ˜ ์˜ˆ์‹œ
    a) ๋ฐ˜๋„์ฒด 1000๊ฐœ์˜ wafer์ค‘ ๋ถˆ๋Ÿ‰ํ’ˆ์˜ ์ˆ˜ X
    b) ๊ณต์žฅ์—์„œ ์ƒ์‚ฐํ•˜๋Š” ์ „๊ตฌ์˜ ์ˆ˜๋ช… T
    c) ์ฃผ์‚ฌ์œ„๋ฅผ ๋˜์งˆ ๋•Œ ๋‚˜์˜ค๋Š” ๋ˆˆ์˜ ์ˆ˜ V



  • ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ํ‰๊ท  : ๊ธฐ๋Œ€๊ฐ’์ด๋ผ๊ณ  ํ‘œํ˜„

  • ํ™•๋ฅ ๋ณ€์ˆœ์˜ ๋ถ„์‚ฐ

  • ๊ธฐ๋Œ€๊ฐ’์˜ ์„ฑ์งˆ
    a, b๊ฐ€ ์ƒ์ˆ˜์ด๊ณ , X, Y๋ฅผ ์ž„์˜์˜ ํ™•๋ฅ  ๋ณ€์ˆ˜๋ผ๊ณ  ํ•  ๋•Œ ๋‹ค์Œ์ด ์„ฑ๋ฆฝํ•œ๋‹ค.
    a) E(a) = a
    b) E(aX) = aE(X)
    c) E(aX + b) = aE(X) + b
    d) E(aXยฑbY) = aE(X) ยฑ bE(Y)
    e) X, Y๊ฐ€ ๋…๋ฆฝ์ผ ๋•Œ E(XY) = E(X) E(Y)

  • ๋ถ„์‚ฐ์˜ ์„ฑ์งˆ
    a, b๊ฐ€ ์ƒ์ˆ˜์ด๊ณ , X, Y๋ฅผ ์ž„์˜์˜ ํ™•๋ฅ  ๋ณ€์ˆ˜๋ผ๊ณ  ํ•  ๋•Œ ๋‹ค์Œ์ด ์„ฑ๋ฆฝํ•œ๋‹ค.
    a) Var(a) = 0
    b) Var(aX) = aยฒVar(X)
    c) Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) โ†๊ณต๋ถ„์‚ฐ
    d) Var(aX ยฑ bY) = aยฒVar(X) ยฑ bยฒVar(Y) + 2Cov(X, Y)
    e) X, Y๊ฐ€ ๋…๋ฆฝ์ผ ๋•Œ Var(XY) = 0

  • ๐Ÿ’ก ๊ณต๋ถ„์‚ฐ : 2๊ฐœ์˜ ํ™•๋ฅ ๋ณ€์ˆ˜๋ฅผ ์„ ํ˜•๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’์œผ๋กœ, ํ•˜๋‚˜์˜ ๊ฐ’์ด ์ƒ์Šนํ•  ๋•Œ ๋‹ค๋ฅธ๊ฐ’๋„ ์ƒ์Šนํ•œ๋‹ค๋ฉด, ์–‘์˜ ๊ณต๋ถ„์‚ฐ์„ ๊ฐ€์ง€๊ณ , ๋ฐ˜๋Œ€๋กœ ํ•˜๋‚˜์˜ ๊ฐ’์ด ์ƒ์Šนํ•  ๋•Œ ํ•˜๋ฝํ•œ๋‹ค๋ฉด ์Œ์˜ ๊ณต๋ถ„์‚ฐ์„ ๊ฐ€์ง„๋‹ค.




ํ™•๋ฅ ๋ถ„ํฌ

  • ํ™•๋ฅ ๋ถ„ํฌ(probability distribution) : ํ™•๋ฅ  ๋ณ€์ˆ˜ X๊ฐ€ ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฐ’๊ณผ ๊ทธ ๊ฐ’์„ ๋‚˜ํƒ€๋‚ผ ํ™•๋ฅ ์„ ํ‘œํ˜„ํ•œ ํ•จ์ˆ˜
    - ์ด์‚ฐํ˜• ํ™•๋ฅ ๋ถ„ํฌ : ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ, ์ดํ•ญ๋ถ„ํฌ, ํฌ์•„์†ก๋ถ„ํฌ, ๊ธฐํ•˜๋ถ„ํฌ, ์Œ์ดํ•ญ๋ถ„ํฌ, ์ดˆ๊ธฐํ•˜๋ถ„ํฌ
    - ์—ฐ์†ํ˜• ํ™•๋ฅ ๋ถ„ํฌ : ๊ท ์ผ๋ถ„ํฌ, ์ •๊ทœ๋ถ„ํฌ, ๊ฐ๋งˆ๋ถ„ํฌ, ์ง€์ˆ˜๋ถ„ํฌ, ์นด์ด์ œ๊ณฑ๋ถ„ํฌ, ๋ฒ ํƒ€๋ถ„ํฌ



์ด์‚ฐํ˜• ๊ท ๋“ฑ ๋ถ„ํฌ

  • ์ด์‚ฐํ˜• ๊ท ๋“ฑ ๋ถ„ํฌ(discrete uniform distribution) : ํ™•๋ฅ ๋ณ€์ˆ˜ X๊ฐ€ ์œ ํ•œ๊ฐœ์ด๊ณ , ๋ชจ๋“  ํ™•๋ฅ  ๋ณ€์ˆ˜์— ๋Œ€ํ•˜์—ฌ ๊ท ์ผํ•œ ํ™•๋ฅ ์„ ๊ฐ–๋Š” ๋ถ„ํฌ





๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ

  • ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ : ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์—์„œ ์„ฑ๊ณต์ด '1', ์‹คํŒจ๊ฐ€ '0'์˜ ๊ฐ’์„ ๊ฐ–์„ ๋•Œ ํ™•๋ฅ ๋ณ€์ˆ˜ X์˜ ๋ถ„ํฌ
  • ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰(Bernoulli trial) : ๊ฐ ์‹œํ–‰์˜ ๊ฒฐ๊ณผ๊ฐ€ ์„ฑ๊ณต, ์‹คํŒจ ๋‘๊ฐ€์ง€ ๊ฒฐ๊ณผ๋งŒ ์กด์žฌํ•˜๋Š” ์‹œํ–‰

  • ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ์˜ ํ‰๊ท  : P, ๋ถ„์‚ฐ : p(1-p)
    ๊ธฐ๋Œ€๊ฐ’ E[X] = 1p + 0(1-p) = p
    ๋ถ„์‚ฐ Var[X] = E(X-p)ยฒ = (0-p)ยฒ(1-p)+(1-p)ยฒp = p(1-p)



์ดํ•ญ๋ถ„ํฌ

  • ์ดํ•ญ๋ถ„ํฌ(Binomial distribution) : ์—ฐ์†์ ์ธ ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์„ ๊ฑฐ์ณ ๋‚˜ํƒ€๋‚˜๋Š” ํ™•๋ฅ ๋ถ„ํฌ. ์„œ๋กœ ๋…๋ฆฝ์ธ ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์„ n๋ฒˆ ๋ฐ˜๋ณตํ•ด์„œ ์‹คํ–‰ํ–ˆ์„ ๋•Œ, ์„ฑ๊ณตํ•œ ํšŸ์ˆ˜ X์˜ ํ™•๋ฅ ๋ถ„ํฌ

์˜ˆ์‹œ) ์ถ•๊ตฌ์„ ์ˆ˜์˜ ํŒจ๋„ํ‹ฐํ‚ฅ ์„ฑ๊ณต๋ฅ ์ด 80%์ผ๋•Œ, 10๋ฒˆ์˜ ๊ธฐํšŒ์—์„œ ์„ฑ๊ณตํšŸ์ˆ˜์™€ ๊ทธ ํ™•๋ฅ ์„ ๊ตฌํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Œ

  • ์ดํ•ญ๋ถ„ํฌ์˜ ๊ธฐ๋Œ€๊ฐ’ : np, ๋ถ„์‚ฐ : np(1-p)



ํฌ์•„์†ก ๋ถ„ํฌ

  • ํฌ์•„์†ก ๋ถ„ํฌ(Poisson distribution) : ์–ด๋Š ํฌ๊ท€ํ•œ ์‚ฌ๊ฑด์ด ์–ด๋–ค ์ผ์ •ํ•œ ์‹œ๊ฐ„๋Œ€์— ํŠน์ •ํ•œ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ  ๋ถ„ํฌ.
    ์˜ˆ์‹œ) ์•ผ๊ตฌ์žฅ์—์„œ ํŒŒ์šธ๋ณผ์„ ์žก์„ ํšŸ์ˆ˜, ๋ฒ„์Šค ์ •๋ฅ˜์žฅ์—์„œ ํŠน์ • ๋ฒ„์Šค๊ฐ€ 5๋ถ„ ์ด๋‚ด์— ๋„์ฐฉํ•œ ํšŸ์ˆ˜, 1๋…„๊ฐ„ ์ง€๊ตฌ์— 1๋ฏธํ„ฐ ์ด์ƒ์˜ ์šด์„์ด ๋–จ์–ด์ง€๋Š” ์ˆ˜

  • ํฌ์•„์†ก ๋ถ„ํฌ์˜ ์กฐ๊ฑด

  1. ์–ด๋–ค ๋‹จ์œ„๊ตฌ๊ฐ„(์˜ˆ. 1์ผ)๋™์•ˆ ์ด๋ฅผ ๋” ์งง์€ ์ž‘์€ ๋‹จ์œ„์˜ ๊ตฌ๊ฐ„(์˜ˆ : 1์‹œ๊ฐ„)์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๊ณ  ์ด๋Ÿฌํ•œ ๋” ์งง์€ ๋‹จ์œ„๊ตฌ๊ฐ„ ์ค‘์— ๋ฐœ์ƒํ•  ํ™•๋ฅ ์€ ์ „์ฒด ์ฒ™๋„ ์ค‘์—์„œ ํ•ญ์ƒ ์ผ์ •
  2. ๋‘ ๊ฐœ ์ด์ƒ์˜ ์‚ฌ๊ฑด์ด ๋™์‹œ์— ๋ฐœ์ƒํ•  ํ™•๋ฅ ์€ 0์— ๊ฐ€๊นŒ์›€
  3. ์–ด๋–ค ๋‹จ์œ„๊ตฌ๊ฐ„์˜ ์‚ฌ๊ฑด์˜ ๋ฐœ์ƒ์€ ๋‹ค๋ฅธ ๋‹จ์œ„๊ตฌ๊ฐ„์˜ ๋ฐœ์ƒ์œผ๋กœ๋ถ€ํ„ฐ ๋…๋ฆฝ์ ์ž„
  4. ํŠน์ • ๊ตฌ๊ฐ„์—์„œ์˜ ์‚ฌ๊ฑด ๋ฐœ์ƒํ™•๋ฅ ์€ ๊ทธ ๊ตฌ๊ฐ„์˜ ํฌ๊ธฐ์— ๋น„๋ก€ํ•จ
  5. ํฌ์•„์†ก๋ถ„ํฌ ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ๊ธฐ๋Œ“๊ฐ’๊ณผ ๋ถ„์‚ฐ์€ ๋ชจ๋‘ ฮป(๋žŒ๋‹ค)์ž„

  • ์ดํ•ญ๋ถ„ํฌ์˜ ํฌ์•„์†ก ๊ทผ์‚ฌ : ํ™•๋ฅ ๋ณ€์ˆ˜ X๊ฐ€ X~B(n, p)์ด๊ณ , n์ด ์ถฉ๋ถ„ํžˆ ํฌ๊ณ , p๊ฐ€ ์•„์ฃผ ์ž‘์„ ๋•Œ, x์˜ ๋ถ„ํฌ๋Š” ํ‰๊ท ์ด ฮป = np์ธ ํฌ์•„์†ก ๋ถ„ํฌ๋กœ ๊ทผ์‚ฌ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ. ๋ณดํ†ต n์ด ํด ๋•Œ, np < 5๋ฅผ ๋งŒ์กฑํ•˜๊ฒŒ p๊ฐ€ ์ž‘์œผ๋ฉด ๊ทผ์‚ฌ ์ •๋„๊ฐ€ ์ข‹๋‹ค๊ณ  ํ•จ X ~ Poisson(np)
์—‘์…€ ํ•จ์ˆ˜
์ดํ•ญ๋ถ„ํฌ : BINOM.DIST(X, N, P, ๋ˆ„์  ์—ฌ๋ถ€)
ํฌ์•„์†ก๋ถ„ํฌ: POISSON.DIST(X, ร–, ๋ˆ„์  ์—ฌ๋ถ€)
(1์ด๋ฉด ๋ˆ„์ 




๊ธฐํ•˜๋ถ„ํฌ

  • ๊ธฐํ•˜๋ถ„ํฌ(geometric distribution) : ์–ด๋–ค ์‹คํ—˜์—์„œ ์ฒ˜์Œ ์„ฑ๊ณต์ด ๋ฐœ์ƒํ•˜๊ธฐ๊นŒ์ง€ ์‹œ๋„ํ•œ ํšŸ์ˆ˜ X์˜ ๋ถ„ํฌ, ์ด๋•Œ ๊ฐ ์‹œ๋„๋Š” ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์„ ๋”ฐ๋ฆ„

์˜ˆ์‹œ) ์ถ•๊ตฌ์„ ์ˆ˜ ์†ํฅ๋ฏผ์˜ ํ•„๋“œ๊ณจ ์„ฑ๊ณต ํ™•๋ฅ ์ด 30%์ผ ๋•Œ, 5๋ฒˆ์งธ ์Š›ํŒ…์—์„œ ๊ณจ์„ ๋„ฃ์„ ํ™•๋ฅ  ๋ถ„ํฌ

  • ๊ธฐํ•˜๋ถ„ํฌ์˜ ๊ธฐ๋Œ€๊ฐ’ : 1/p, ๋ถ„์‚ฐ : 1-p/pยฒ



์Œ์ดํ•ญ๋ถ„ํฌ

  • ์Œ์ดํ•ญ๋ถ„ํฌ(negative binomial distribution) : ์–ด๋–ค ์‹คํ—˜์—์„œ ์„ฑ๊ณตํ™•๋ฅ ์ด p์ผ ๋•Œ, r๋ฒˆ์˜ ์‹คํŒจ๊ฐ€ ๋‚˜์˜ฌ ๋•Œ๊นŒ์ง€ ํ™•๋ฅ ๋ถ„ํฌ

์˜ˆ์‹œ) ๋†๊ตฌ ์„ ์ˆ˜ ํ—ˆํ›ˆ์˜ ์ž์œ ํˆฌ ์„ฑ๊ณต ํ™•๋ฅ ์ด 90%์ผ ๋•Œ, 3๋ฒˆ์งธ ์‹คํŒจ๊ฐ€ ๋‚˜์˜ฌ ๋•Œ ๊นŒ์ง€ ์„ฑ๊ณต์‹œํ‚จ ์ž์œ ํˆฌ๊ฐ€ 10๋ฒˆ์ผ ํ™•๋ฅ 

  • ์Œ์ดํ•ญ๋ถ„ํฌ์˜ ๊ธฐ๋Œ€๊ฐ’ : r*(1-p)/p, ๋ถ„์‚ฐ : r(1-p)/pยฒ




์—ฐ์†ํ˜• ํ™•๋ฅ  ๋ถ„ํฌ

ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜

  • ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜(pdf : probablity density function) : ์—ฐ์†ํ˜• ํ™•๋ฅ  ๋ณ€์ˆ˜ X์— ๋Œ€ํ•ด์„œ ํ•จ์ˆ˜ f(x)๊ฐ€ ์•„๋ž˜์˜ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋ฉด ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜๋ผ๊ณ  ํ•จ





๋ˆ„์ ๋ถ„ํฌํ•จ์ˆ˜

  • ๋ˆ„์ ๋ถ„ํฌํ•จ์ˆ˜(cdf : cumulative density function) : ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜๋ฅผ ์ ๋ถ„ํ•˜๋ฉด ๋ˆ„์ ๋ถ„ํฌํ•จ์ˆ˜๊ฐ€ ๋จ




๊ท ์ผ๋ถ„ํฌ

  • ๊ท ์ผ๋ถ„ํฌ(uniform distribution) : ํ™•๋ฅ  ๋ณ€์ˆ˜ X๊ฐ€ a์™€ b์‚ฌ์ด์—์„œ ์•„๋ž˜์™€ ๊ฐ™์€ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜(pdf)์™€ ๊ฐ™์Œ

  • ๊ท ์ผ๋ถ„ํฌ์˜ ํ‰๊ท  = (b + a) / 2, ๋ถ„์‚ฐ = (b - a)ยฒ / 12




โญ ์ •๊ทœ๋ถ„ํฌ

  • โญ ์ •๊ทœ ๋ถ„ํฌ(normal distribution) : ๊ฐ€์šฐ์Šค ๋ถ„ํฌ๋ผ๊ณ ๋„ ํ•œ๋‹ค. ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜๋Š” ํ™•๋ฅ  ๋ณ€์ˆ˜ X๊ฐ€ ํ‰๊ท ์ด ฮผ์ด๊ณ , ๋ถ„์‚ฐ์ด ฯƒยฒ(ฯƒ : ์‹œ๊ทธ๋งˆ)์ธ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅผ ๋•Œ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

๋ฉด์  : 1, ์ค‘์‹ฌ๊ฐ’ : ฮผ

  • ์ •๊ทœ๋ถ„ํฌ(normal distribution)์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ
    ํ‰๊ท  : E[X] = ฮผ
    ๋ถ„์‚ฐ : Var[X] = ฯƒยฒ, ํ‘œ์ค€ํŽธ์ฐจ = ฯƒ

  • ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ(standard normal distribution) : ํ™•๋ฅ ๋ณ€์ˆ˜ X ~ N(ฮผ, ฯƒยฒ) ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๊ณ  ํ™•๋ฅ ๋ณ€์ˆ˜ Z = (X - ฮผ) / ฯƒ๋ผ๊ณ  ํ•  ๋•Œ ํ™•๋ฅ ๋ณ€์ˆ˜ Z ~ N(0, 1)

์˜ˆ์‹œ1) P[Z โ‰ค 1.96] = 0.975
์˜ˆ์‹œ2) P[Z โ‰ค -1.96] = 1 - [Z โ‰ค -1.96] = 0.025
์˜ˆ์‹œ3) P[0.5 Z โ‰ค -1.96] = 0.975 - 0.6915 = 0.28354

  • ์ •๊ทœ๋ถ„ํฌ์˜ ์„ฑ์งˆ

1. X ~ N(ฮผ, ฯƒยฒ) ์ผ ๋•Œ, ์ž„์˜์˜ ์ƒ์ˆ˜ a, b์— ๋Œ€ํ•˜์—ฌ aX + b ~N(aฮผ + b(E(aX + b) = aE(x) + b), aยฒaยฒ(Var(aX + b) = aยฒVar(X)))

2. X ~ N(ฮผ, ฯƒยฒ) ์ผ ๋•Œ, Z = (X - ฮผ) / ฯƒ, Z ~ N(0, 1)

3. X ~ N(ฮผโ‚, ฯƒโ‚ยฒ), Y ~ N(ฮผโ‚‚, ฯƒโ‚‚ยฒ)์ด๊ณ , X์™€ Y๊ฐ€ ๋…๋ฆฝ์ผ ๋•Œ aX + bY ~ N(aฮผโ‚+ bฮผโ‚‚, aยฒaโ‚ยฒ + bยฒฯƒโ‚‚ยฒ)

์˜ˆ์‹œ) X ~ N(100, 10ยฒ) ์ผ ๋•Œ, P[100 โ‰ค X โ‰ค 110]์„ ๊ตฌํ•˜์‹œ์˜ค
P[100 โ‰ค X โ‰ค 110] = P((100-100)/10 โ‰ค (X-100)/10 โ‰ค (110-100)/10) = P(0 โ‰ค Z โ‰ค 1) = 0.8413 - 0.5 = 0.3413

  • ์ดํ•ญ๋ถ„ํฌ์˜ ์ •๊ทœ ๊ทผ์‚ฌ : X ~ B(n, p)์ผ ๋•Œ, ํ™•๋ฅ ๋ณ€์ˆ˜ X๋Š” n์ด ์ถฉ๋ถ„ํžˆ ํฌ๋ฉด ๊ทผ์‚ฌ์ ์œผ๋กœ X ~ N(np, np(1-p))๋ฅผ ๋”ฐ๋ฆ„

  • excelํ•จ์ˆ˜
    norm.dist : ์ •๊ทœ ๋ถ„ํฌ๊ฐ’์„ ์ฐพ์•„์คŒ
    norm.inv : ์ •๊ทœ ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜์˜ ์—ญํ•จ์ˆ˜ ๊ฐ’์„ ์ฐพ์•„์คŒ




์ง€์ˆ˜๋ถ„ํฌ

  • ์ง€์ˆ˜๋ถ„ํฌ(exponential distribution) : ๋‹จ์œ„ ์‹œ๊ฐ„๋‹น ๋ฐœ์ƒํ•  ํ™•๋ฅ  ฮป์ธ ์–ด๋–ค ์‚ฌ๊ฑด์˜ ํšŸ์ˆ˜๊ฐ€ ํฌ์•„์†ก ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๋ฉด, ์–ด๋–ค ์‚ฌ๊ฑด์ด ์ฒ˜์Œ ๋ฐœ์ƒํ•  ๋•Œ๊ฐ€์ง€ ๊ฑธ๋ฆฐ ์‹œ๊ฐ„ ํ™•๋ฅ  ๋ณ€์ˆ˜ X๋Š” ์ง€์ˆ˜๋ถ„ํฌ์ด๋‹ค

์˜ˆ์‹œ) ๋ฒ„์Šค ์ •๋ฅ˜์žฅ์—์„œ 100๋ฒˆ ๋ฒ„์Šค๊ฐ€ ๋„์ฐฉํ•˜๋Š” ํšŸ์ˆ˜๊ฐ€ ํฌ์•„์†ก ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๋ฉด, ์ฒซ ๋ฒˆ์งธ ๋ฒ„์Šค๊ฐ€ ๋„์ฐฉํ•  ๋•Œ๊นŒ์ง€ ๋Œ€๊ธฐ ์‹œ๊ฐ„์˜ ๋ถ„ํฌ๊ฐ€ ์ง€์ˆ˜๋ถ„ํฌ์ž„

  • ์ง€์ˆ˜๋ถ„ํฌ๋Š” ์—ฐ์†๋˜๋Š” ์‚ฌ๊ฑด์˜ ์‚ฌ์ด์˜ ๋Œ€๊ธฐ ์‹œ๊ฐ„๋„ ์ง€์ˆ˜ ๋ถ„ํฌ๋‹ค. ์ฆ‰ ์•ž์˜ ์˜ˆ์‹œ์—์„œ ๋‘ ๋ฒˆ์งธ ๋ฒ„์Šค๊ฐ€ ๋„์ฐฉํ•˜๊ณ  ์„ธ ๋ฒˆ์งธ ๋ฒ„์Šค๊ฐ€ ๋„์ฐฉํ•  ๋•Œ๊นŒ์ง€ ๋Œ€๊ธฐ ์‹œ๊ฐ„์˜ ๋ถ„ํฌ๋„ ์ง€์ˆ˜๋ถ„ํฌ์ด๋‹ค

  • ์ง€์ˆ˜๋ถ„ํฌ์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ
    ํ‰๊ท  : E(X) = 1 / ฮป
    ๋ถ„์‚ฐ : Var(X) = 1 / ฮปยฒ

  • ์ง€์ˆ˜๋ถ„ํฌ์˜ ๋ฌด๊ธฐ์–ต์„ฑ(Memoryless Property)

  • ์–ด๋–ค ์‹œ์ ๋ถ€ํ„ฐ ์†Œ์š”๋˜๋Š” ์‹œ๊ฐ„์€ ๊ณผ๊ฑฐ ์‹œ๊ฐ„์— ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š์Œ
  • ์˜ˆ์‹œ)
    ๋ฒ„์Šค๋ฅผ ๊ธฐ๋‹ค๋ฆฌ๋Š” ๋Œ€๊ธฐ์‹œ๊ฐ„์€ ๋จผ์ € ๊ธฐ๋‹ค๋ฆฐ ์‚ฌ๋žŒ๊ณผ ํ™•๋ฅ ์ด ๊ฐ™์Œ
    ์ „๊ตฌ๋ฅผ ํ•œ๋‹ฌ ๋™์•ˆ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ๋‚จ์€ ์ˆ˜๋ช…์€ ํ•œ๋‹ฌ ๊ฐ„ ์‚ฌ์šฉํ–ˆ๋˜ ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š์Œ, ์ฆ‰ ์ƒˆ์ „๊ตฌ์™€ ํ•œ๋‹ฌ ๊ฐ„ ์‚ฌ์šฉํ•œ ์ „๊ตฌ์˜ ๋‚จ์€ ์ˆ˜๋ช…์€ ๊ฐ™๋‹ค๊ณ  ์ƒ๊ฐํ•จ
  • ์ด๋Ÿฐ ๋ฌธ์ œ๋กœ ์‹ค์ œ ์ ์šฉ์— ๋ฌธ์ œ๊ฐ€ ์žˆ๊ณ , ์ƒ์กด ๋ถ„์„์—์„œ๋Š” Weibull ๋ถ„ํฌ ๋˜๋Š” log-normal ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธกํ•จ



๋ชจ์ง‘๋‹จ๊ณผ ํ‘œ๋ณธ๋ถ„ํฌ

  • ๋ชจ์ง‘๋‹จ(Population), ํ‘œ๋ณธ(Sample)

๋ชจ์ง‘๋‹จ(Population) : ๋ชจํ‰๊ท (ฮผ), ๋ชจ๋ถ„์‚ฐ(ฯƒยฒ)
ํ‘œ๋ณธ(Sample) : ํ‘œ๋ณธํ‰๊ท , ํ‘œ๋ณธ๋ถ„์‚ฐ

  • ํ‘œ๋ณธ์ถ”์ถœ(Sampling) : ๋ชจ์ง‘๋‹จ์œผ๋กœ๋ถ€ํ„ฐ ํ‘œ๋ณธ์„ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ. ํ‘œ๋ณธ์„๋ถ€ํ„ฐ ๊ทธ ํŠน์„ฑ์„ ์ฐพ์•„๋‚ด๊ณ  ๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ์„ ์ถ”๋ก ํ•˜๊ณ ์ž ํ•จ
    - ๋ณต์›์ถ”์ถœ(Sampling with replacement) : ๋ชจ์ง‘๋‹จ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•  ๋•Œ ํ•˜๋‚˜๋ฅผ ์ถ”์ถœํ•˜๊ณ  ๋‹ค์‹œ ๋„ฃ๊ณ  ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋™์ผํ•œ ํ‘œ๋ณธ์ด ์ถ”์ถœ๋  ์ˆ˜ ์žˆ๋‹ค
    - ๋น„๋ณต์›์ถ”์ถœ(Sampling without replacement) : ๋ชจ์ง‘๋‹จ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•  ๋•Œ ํ•˜๋‚˜๋ฅผ ์ถ”์ถœํ•˜๊ณ  ๋‹ค์‹œ ๋„ฃ์ง€ ์•Š๊ณ  ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•
    - Random Sampling : ๋ชจ์ง‘๋‹จ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•  ๋•Œ ์ฃผ์˜ํ•  ์ ์€ ํŽธํ–ฅ๋˜์ง€ ์•Š์•„์•ผ ํ•œ๋‹ค. ๊ฐ ๊ฐœ์ฒด๊ฐ€ ๋ชจ๋‘ ๋™์ผํ•œ ํ™•๋ฅ ๋กœ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•

  • ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ(Imbalanced Data)์˜ ๋ฌธ์ œ
    1) Sampling ๊ธฐ๋ฒ•์„ ํ†ตํ•˜์—ฌ ํ•ด๊ฒฐ
    2) ๋ชจ๋ธ์„ ํ†ตํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ (ex: Cost-sensitive learning)

  • Sampling๊ธฐ๋ฒ• : ๊ด€์‹ฌ์˜ ๋Œ€์ƒ์˜ ๋น„์œจ์ด ๋‚ฎ์€ ๊ฒฝ์šฐ
    - Over Sampling : ํƒ€๊ฒŸ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ class์˜ ์ˆ˜๋ฅผ ๋งŽ์€ class์˜ ๋น„์œจ๋งŒํผ ์ฆ๊ฐ€์‹œํ‚ด(์ผ์ • ๋น„์œจ๋กœ ๋ณต์›์ถ”์ถœํ•˜๋Š” ๊ฐœ๋…)
    - Under Sampling : ํƒ€๊ฒŸ ๋ฐ์ดํ„ฐ์˜ ๋งŽ์€ calss์˜ ์ˆ˜๋ฅผ ์ ์€ class์˜ ๋น„์œจ๋งŒํผ ๊ฐ์†Œ์‹œํ‚ด. ์ž„์˜๋กœ ๋ฝ‘์€ ๋ฐ์ดํ„ฐ๊ฐ€ biased(ํŽธํ–ฅ)๋  ์ˆ˜ ์žˆ๊ณ , ๋ชจํ˜•์˜ ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Œ




ํ‘œ๋ณธ๋ถ„ํฌ

  • ํ†ต๊ณ„๋Ÿ‰(Statistic) : ํ‘œ๋ณธ์— ๊ธฐ์ดˆํ•˜์—ฌ ๊ณ„์‚ฐ๋˜๋Š” ์ˆ˜์น˜ ํ•จ์ˆ˜

  • ํ‘œ๋ณธ๋ถ„ํฌ(Sampling distribution) : ํ†ต๊ณ„๋Ÿ‰๋“ค์ด ์ด๋ฃจ๋Š” ๋ถ„ํฌ

  • ํ‘œ๋ณธ ํ‰๊ท (Sample mean)

  • ํ‘œ๋ณธํ‰๊ท  ๊ธฐ๋Œ€๊ฐ’ : ฮผ
  • ํ‘œ๋ณธํ‰๊ท  ๋ถ„์‚ฐ : ฯƒยฒ / n
  • ๋ชจ์ง‘๋‹จ์˜ ๋ถ„ํฌ๊ฐ€ N(ฮผ, ฯƒยฒ)๋ผ๊ณ  ํ•  ๋•Œ,




โญ ์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ

  • โญ ์ค‘์‹ฌ๊ทนํ•œ ์ •๋ฆฌ(central limit theorem) : ํ‰๊ท ์ด ฮผ์ด๊ณ  ฯƒยฒ์ธ ์ž„์˜์˜ ๋ชจ์ง‘๋‹จ์—์„œ ๋žœ๋ค ํ‘œ๋ณธ Xโ‚, Xโ‚‚...Xn์„ ์ถ”์ถœํ•  ๋•Œ ํ‘œ๋ณธ์˜ ํฌ๊ธฐ n์ด ์ถฉ๋ถ„ํžˆ(n โ‰ฅ 30) ํฌ๋ฉด, ํ‘œ๋ณธํ‰๊ท ์€ ๊ทผ์‚ฌ์ ์œผ๋กœ ์ •๊ทœ๋ถ„ํฌ N(ฮผ, ฯƒยฒ/n)์„ ๋”ฐ๋ฅธ๋‹ค.




์นด์ด์ œ๊ณฑ๋ถ„ํฌ

  • ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ(Chi-square distribution) : ํ™•๋ฅ ๋ณ€์ˆ˜ Zโ‚ยฒ, Zโ‚‚ยฒ, ...Znยฒ๊ฐ€ ํ‘œ์ค€ ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ ๋‹ค๋ฉด, ํ™•๋ฅ  ๋ณ€์ˆ˜๋Š” Zโ‚ยฒ + Zโ‚‚ยฒ + ... + Znยฒ

  • Z ~ Xยฒ(ฮฝ) , Z๊ฐ€ ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅผ ๋•Œ

  • ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ๋Š” ๊ฐ๋งˆ ๋ถ„ํฌ์—์„œ a = ฮฝ / 2, ฮป = 2์™€ ๊ฐ™์Œ

  • ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ๋Š” ๋ฒ”์ฃผํ˜• ์ž๋ฃŒ ๋ถ„์„์—์„œ ํ™œ์šฉ

  • โญ ์ž์œ ๋„(degree of freedom) : ํ‘œ๋ณธ์ˆ˜ - ์ œ์•ฝ์กฐ๊ฑด์˜ ์ˆ˜ ๋˜๋Š” ํ‘œ๋ณธ์ˆ˜ - ์ถ”์ •ํ•ด์•ผ ํ•˜๋Š” ๋ชจ์ˆ˜์˜ ์ˆ˜๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ ์ผ๋ฐ˜์ ์œผ๋กœ n - 1์„ ์‚ฌ์šฉํ•จ.
    ex) ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๊ฐ€ 5์ด๊ณ , ํ‘œ๋ณธ ํ‰๊ท ์ด 3์œผ๋กœ ์ •ํ•ด์กŒ๋‹ค๋ฉด, ์ˆซ์ž 4๊ฐœ๋Š” ์ž์œ ๋กญ๊ฒŒ ์ •ํ•  ์ˆ˜ ์žˆ์œผ๋‚˜ ๋งˆ์ง€๋ง‰ ํ•˜๋‚˜์˜ ์ˆซ์ž๋Š” ๋‚˜๋จธ์ง€ ๋„ค ๊ฐœ์˜ ์ˆซ์ž์— ์˜ํ•ด ๊ฒฐ์ •. 1, 2, 3, 4๋ฅผ ๊ณจ๋ž๋‹ค๋ฉด ๋งˆ์ง€๋ง‰ ์ˆซ์ž๋Š” ์ž๋™์œผ๋กœ 5๊ฐ€ ๋˜์–ด์•ผ ํ‰๊ท ์ด 5๋กœ ์ •ํ•ด์ ธ ์žˆ๋‹ค

  • ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ๋Š” ์ž์œ ๋„ ฮฝ์˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๋ชจ์–‘์ด ๋‹ฌ๋ผ์ง„๋‹ค. ์ž์œ ๋„๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ๋ถ„ํฌ๊ฐ€ ์ขŒ์šฐ ๋Œ€์นญ ํ˜•ํƒœ๋กœ ๋œ๋‹ค

  • โญ ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ๋Š” ์ž์œ ๋„๊ฐ€ ์ปค์ง€๋ฉด์„œ ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ์— ๊ทผ์‚ฌํ•˜๋ฉฐ, ฮฝ โ‰ฅ 30์ด๋ฉด, ํ™•๋ฅ ์„ ๊ทผ์‚ฌ์ ์œผ๋กœ ์ •๊ทœ๋ถ„ํฌ๋กœ ๊ตฌํ•  ์ˆ˜ ์žˆ์Œ



โญ T๋ถ„ํฌ

  • ๋งŒ์•ฝ ๋ชจํ‘œ์ค€ํŽธ์ฐจ ฯƒ๋ฅผ ๋ชจ๋ฅธ๋‹ค๋ฉด, ฯƒ๋ฅผ ๋Œ€์‹ ํ•ด์„œ ํ‘œ๋ณธํ‘œ์ค€ํŽธ์ฐจ s๋ฅผ ์ด์šฉํ•˜์—ฌ ํ™•๋ฅ ๋ณ€์ˆ˜ Z๋ฅผ ์ •์˜ํ•œ๋‹ค




โญ F๋ถ„ํฌ

  • F๋ถ„ํฌ(F distribution) :

  • ์„œ๋กœ ๋…๋ฆฝ์ธ ๋‘ ์ •๊ทœ ๋ชจ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ ๋˜๋Š” ํ‘œ์ค€ํŽธ์ฐจ๋“ค์˜ ๋น„์œจ์— ๋Œ€ํ•œ ํ†ต๊ณ„์  ์ถ”๋ก , ๋ถ„์‚ฐ๋ถ„์„ ๋“ฑ์— ํ™œ์šฉ




์ถ”์ •

  • ์ถ”์ •(estimation) : ๋ชจ์ง‘๋‹จ์˜ ๋ชจ์ˆ˜๋ฅผ ๋ชจ๋ฅผ ๊ฒฝ์šฐ ํ‘œ๋ณธ์œผ๋กœ ์ถ”์ถœ๋œ ํ†ต๊ณ„๋Ÿ‰์„ ๋ชจ์ง‘๋‹จ์˜ ๊ทผ์‚ฌ๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ

  • ์ถ”์ •๋Ÿ‰(estimator) : ํ‘œ๋ณธ ํ‰๊ท ์œผ๋กœ ๋ชจํ‰๊ท ์„ ์ถ”์ •ํ•  ๋•Œ ํ‘œ๋ณธ ํ‰๊ท ์„ ๋ชจํ‰๊ท ์— ๋Œ€ํ•œ ์ถ”์ •๋Ÿ‰์ด๋ผ๊ณ  ํ•œ๋‹ค

  • ๋ชจ์ˆ˜๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• : ์ ์ถ”์ •(point estimation) ๊ณผ ๊ตฌ๊ฐ„์ถ”์ •(interval estimation)




์ ์ถ”์ •

  • ์ ์ถ”์ • : ๋ชจ์ˆ˜๋ฅผ ํ•˜๋‚˜์˜ ํŠน์ •๊ฐ’์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•
    - ์ผ์น˜์„ฑ(Consistency) : ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๊ฐ€ ๋ชจ์ง‘๋‹จ์˜ ํฌ๊ธฐ์— ๊ทผ์ ‘ํ•ด์•ผ ํ•œ๋‹ค. ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๊ฐ€ ํฌ๋ฉด ํด์ˆ˜๋ก(๋ชจ์ง‘๋‹จ์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์˜ค์ฐจ๊ฐ€ ์ž‘์•„์ง)
  • ๋ถˆํŽธ์„ฑ(unbiased estimator) : ์ถ”์ •๋Ÿ‰์ด ๋ชจ์ˆ˜์™€ ๊ฐ™์•„์•ผ ํ•œ๋‹ค.

  • ์œ ํšจ์„ฑ(efficiency) : ์ถ”์ •๋Ÿ‰์˜ ๋ถ„์‚ฐ์ด ์ตœ์†Œ๊ฐ’์ด์–ด์•ผ ํ•œ๋‹ค. ๋ชจ์ˆ˜์— ๋Œ€ํ•œ ์ถ”์ •๋Ÿ‰์˜ ๋ถ„์‚ฐ์ด ์ž‘์„์ˆ˜๋ก ์ถ”์ •๋Ÿ‰์ด ํšจ์œจ์ ์ด๋‹ค.

  • ํ‰๊ท ์˜ค์ฐจ์ œ๊ณฑ(Mean Squared Error : MSE) : ํ‰๊ท ์˜ค์ฐจ์ œ๊ณฑ์ด ์ตœ์†Œ๊ฐ’์ด์–ด์•ผ ํ•œ๋‹ค




๊ตฌ๊ฐ„์ถ”์ •

  • ๊ตฌ๊ฐ„์ถ”์ • : ๋ชจ์ˆ˜๊ฐ€ ํฌํ•จ๋  ์ˆ˜ ์žˆ๋Š” ๊ตฌ๊ฐ„์„ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•

  • ์‹ ๋ขฐ๊ตฌ๊ฐ„(confidence level) : ์ถ”์ •๊ฐ’์ด ์กด์žฌํ•˜๋Š” ๊ตฌ๊ฐ„์— ๋ชจ์ˆ˜๊ฐ€ ํฌํ•จ๋  ํ™•๋ฅ 

  • ์‹ ๋ขฐ์ˆ˜์ค€์€ 100 * (1 - ฮฑ)%๋กœ ๊ณ„์‚ฐํ•˜๋ฉฐ, ฮฑ๋Š” ์˜ค์ฐจ์ˆ˜์ค€

  • ์‹ ๋ขฐ์ˆ˜์ค€ 95%๋ผ๋Š” ๊ฒƒ์€ ๊ตฌ๊ฐ„ ์ถ”์ •๋œ ๊ฐ’์˜ ์˜ค์ฐจ๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ด 5%๋ผ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค

  • ์ด ์˜ค์ฐจ๋ฅผ ์œ ์˜์ˆ˜์ค€(significant level)์ด๋ผ๊ณ  ํ•˜๋ฉฐ, p = 0.05๋ผ๊ณ  ํ•œ๋‹ค

  • ์‹ ๋ขฐ๊ตฌ๊ฐ„์€ ์‹ ๋ขฐ ํ•˜ํ•œ, ์‹ ๋ขฐ ์ƒํ•œ์œผ๋กœ ํ‘œ์‹œํ•˜๋ฉฐ ์•„๋ž˜์™€ ๊ฐ™์€ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ (์ถ”์ •ํ•˜๋Š” ๋ชจ์ˆ˜๊ฐ€ ฮธ)




ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ •

  • ํ—ˆ์šฉ์˜ค์ฐจ(permissible error) : ์ถ”์ •ํ•œ ๊ฐ’์ด ํ‹€๋ ค๋„ ํ—ˆ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์˜ค์ฐจ
  • ์ •๊ทœ๋ถ„ํฌ์˜ ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ํ†ตํ•ด ํ—ˆ์šฉ์˜ค์ฐจ๋ฅผ ๊ณ„์‚ฐ




๋ชจ๋น„์œจ์˜ ์ถ”์ •

  • ๋ชจ๋น„์œจ์˜ ์ ์ถ”์ •

  • ๋น„์œจ์— ๋Œ€ํ•œ ์ฃผ์ •์œผ๋กœ ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ์†์„ฑ(class)์— ์†ํ•˜๋ฉด '1'์•„๋‹ˆ๋ฉด '0'์ผ ๋•Œ, 1์˜ ์†์„ฑ์„ ๊ฐ–๋Š” ๊ฒƒ์˜ ๊ฐœ์ˆ˜๋ฅผ X๋ผ๊ณ  ํ•˜๋ฉด X ~ B(n,p)

  • ์ด ๋•Œ ๋ชจ๋น„์œจ์˜ ์ ์ถ”์ •๋Ÿ‰์„ ํ‘œ๋ณธ ๋น„์œจ(sample proportion)์ด๋ผ๊ณ  ํ•จ

  • ๋ชจ๋น„์œจ์˜ ๊ตฌ๊ฐ„ ์ถ”์ •

  • ๋ชจ๋น„์œจ ๊ตฌ๊ฐ„ ์ถ”์ •์—์„œ๋Š” ์ •๊ทœ๋ถ„ํฌ์˜ ๊ทผ์‚ฌ๊ฐ€ ๊ฐ€๋Šฅํ•œ ๋Œ€ํ‘œ๋ณธ์€ ๋ณดํ†ต np > 5, n(1-p)> 5๋ฅผ ๋™์‹œ์— ๋งŒ์กฑํ•ด์•ผ ํ•œ๋‹ค

  • ๋ชจ๋น„์œจ ํ‘œ๋ณธ ํฌ๊ธฐ(๋Œ€ํ‘œ๋ณธ์ผ ๊ฒฝ์šฐ)


  • ๋ชจํ‰๊ท  ์ฐจ์ด์˜ ์ถ”์ •(๊ตฌ๊ฐ„์ถ”์ • : ์†Œํ‘œ๋ณธ, ๋ชจ๋ถ„์‚ฐ์„ ๋ชจ๋ฅด๋Š” ๊ฒฝ์šฐ)
    - ๋‘ ๋ชจ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์„ ์•„๋Š” ๊ฒฝ์šฐ์—๋Š” ๋Œ€ํ‘œ๋ณธ๊ณผ ๋™์ผํ•˜๊ฒŒ ์ถ”์ • ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ๋ชจ๋ฅด๋Š” ๊ฒฝ์šฐ์—๋Š” ๋“ฑ๋ถ„์‚ฐ ๊ฐ€์ •์ด ํ•„์š”(๋‘ ๋ชจ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์ด ๊ฐ™๋‹ค๋Š” ๊ฐ€์ •์ด ํ•„์š” ฯƒโ‚ยฒ, ฯƒโ‚‚ยฒ = ฯƒยฒ)

  • ํ•ฉ๋™ ๋ถ„์‚ฐ ์ถ”์ •๋Ÿ‰(pooled variance estimator) : ๊ณตํ†ต ๋ถ„์‚ฐ์˜ ์ถ”์ •๋Ÿ‰

โ€ป excel

  • NORM.INV
  • STDEV
  • ๋ฐ์ดํ„ฐ โ†’ ๋ฐ์ดํ„ฐ ๋ถ„์„

๐Ÿ’ป ์ถœ์ฒ˜ : ์ œ๋กœ๋ฒ ์ด์Šค ๋ฐ์ดํ„ฐ ์ทจ์—… ์Šค์ฟจ

profile
#๋ฐ์ดํ„ฐ๋ถ„์„ #ํผํฌ๋จผ์Šค๋งˆ์ผ€ํŒ… #๋ฐ์ดํ„ฐ #๋””์ง€ํ„ธ๋งˆ์ผ€ํŒ…

0๊ฐœ์˜ ๋Œ“๊ธ€