๐ŸŽฒ ์ •๊ทœ๋ถ„ํฌํ•จ์ˆ˜์™€ QQ ํ”Œ๋กฏ

Lightmanยท2021๋…„ 9์›” 10์ผ
1

MACHINE LEARNING ๐Ÿฆพ

๋ชฉ๋ก ๋ณด๊ธฐ
8/9

์ •๊ทœ๋ถ„ํฌ

(์ž‘์„ฑ์˜ˆ์ •)

Q-Q Plot

Q-QPlot ์ด๋ž€?

  • N๊ฐœ์˜ xx๊ฐ€ ๋ฐ์ดํ„ฐ๋กœ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋ฐ์ดํ„ฐ xx๋ฅผ Samplingํ•œ ์ถœ์ฒ˜ X๋Š” ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅผ๊นŒ?
    • ๋ˆˆ์œผ๋กœ ์–ด๋ฆผ์ง์ž‘ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ Q-Q Plot์„ ๊ทธ๋ ค๋ณด๋Š” ๊ฒƒ์ด๋‹ค.

๐Ÿ’ก Q-Q plot์€ Quantile-Quantile Plot์œผ๋กœ X์™€ Z๊ฐ’์„ ์ด์šฉํ•œ scatter plot์ด๋‹ค.

  • ์ด๋•Œ, X๋Š” ๋ฐ์ดํ„ฐ๋กœ ๋ถ€ํ„ฐ ์ถ”์ •ํ•œ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜์ด๊ณ ,
  • Z๋Š” ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜์ด๋‹ค.
  • Q-Q plot์€ Quantile, ์ฆ‰ ๋ˆ„์ ํ™•๋ฅ ์— ๋Œ€ํ•œ ๋…ผ์˜์ด๋ฏ€๋กœ ์šฐ์ƒํ–ฅํ•œ๋‹ค.

INTRO: ๋ฐ์ดํ„ฐ x, y์™€ Scatter Plot

  • ๋ฐ์ดํ„ฐ x, y์˜ scatter plot์„ ์ƒ๊ฐํ•ด๋ณด์ž.
  • (x, y)๋Š” ํ•˜๋‚˜์˜ index๋กœ ๋ฌถ์ธ๋‹ค: index(x, y)
  • ๊ทธ๋ ‡๋‹ค๋ฉด (x, z)๋Š” ํ•˜๋‚˜์˜ ๋ฌด์—‡์œผ๋กœ ๋ฌถ์ผ๊นŒ? ๋ฐ”๋กœ k of q-quantile์ด๋‹ค.
    • quantile์€ the k-th q-quantile๊ณผ ๊ฐ™์€ ์–‘์‹์œผ๋กœ ์“ฐ์ธ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 50th 100quantile์€ 100๊ฐœ ์ž๋ฃŒ์ค‘ 50๋ฒˆ์งธ ๊ฐ’์œผ๋กœ, ์ค‘์œ„์ˆ˜๋ฅผ ๊ฐ€๋ฆฌํ‚จ๋‹ค.

PRACTICE

๊ทธ๋ ‡๋‹ค๋ฉด ์‹ค์ œ๋กœ ๊ทธ๋ ค๋ณด์ž.

  • ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ y์ถ•์€ ํ™•๋ฅ ๋ณ€์ˆ˜ X์˜ ๊ฐ’์„ ๋‚˜ํƒ€๋‚ด๊ณ  x์ถ•์€ ํ™•๋ฅ ๋ณ€์ˆ˜ Z์˜ ๊ฐ’์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.
  • ์ ˆ์ฐจ
    1. ๋ฐ์ดํ„ฐ๋กœ ๋ถ€ํ„ฐ ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ๋ถ„ํฌ ์ถ”์ •
      • ์šฐ๋ฆฌ์—๊ฒŒ ๋ฐ์ดํ„ฐ xx๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ์ปค๋„๋ฐ€๋„์ถ”์ • ๋“ฑ์„ ํ™œ์šฉํ•ด X์˜ ๋ถ„ํฌ๋ฅผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.
      • ์ด์— ๋”ฐ๋ผ ์ถ”์ •ํ•œ ๋ถ„ํฌ์—์„œ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ xkx_{k}์ด k-th 100-quantile์ด๋ผ๊ณ  ํ•  ๋•Œ k๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด k๊ฐ€ ์œ„์—์„œ ์ด์•ผ๊ธฐํ•œ (X, Z)๋ฅผ ๋ฌถ์–ด์ฃผ๋Š” ๊ธฐ์ค€์ด ๋œ๋‹ค.
    2. (X, Z) ์  ๊ทธ๋ฆฌ๊ธฐ
      • ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ x50x_{50}์ด k = 50์„ ๊ฐ–๋Š” 100-quantile์ด๋ผ๊ณ  ํ–ˆ์„ ๋•Œ ์ด์— ํ•ด๋‹นํ•˜๋Š” Z์˜ quantile์€ z50z_{50} = 0 ์ด ๋œ๋‹ค. ๋”ฐ๋ผ์„œ k=50(x50,z50)k_{=50}(x_{50}, z_{50})๋ฅผ ํ•˜๋‚˜์˜ ์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉด ์šฐ๋ฆฌ๋Š” ํ•ด๋‹น ์ขŒํ‘œํ‰๋ฉด์— ๋ฐ์ดํ„ฐ๋กœ ์ฃผ์–ด์ง„ X์˜ ๋ชจ๋“  ๊ฐ’์„ ์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

INTERPRETATION

  • ๋ชจ๋“  ์ ์ด y = x ์ถ• ์ƒ์— ๋†“์ธ๋‹ค๋ฉด X์˜ ๋ถ„ํฌ์™€ Z์˜ ๋ถ„ํฌ๊ฐ€ ๋™์ผํ•˜๋‹ค(์ฆ‰, X๋Š” ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค)๋Š” ๊ฒƒ์„ ์‰ฝ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ํ•˜์ง€๋งŒ y = x ์ถ• ์ƒ์ด ์•„๋‹Œ ๊ณณ์— ๋†“์ธ ์ ์€ ์–ด๋–ป๊ฒŒ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ์ด๋•Œ ๊ฐ™์€ X๊ฐ’์— ๋Œ€ํ•ด์„œ ํ•ด์„ํ•˜๋Š” ํŽธ์ด ๋” ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๋‹ค.

    • ์ 0 : X = -2์˜ ๋ถ„์œ„์ˆ˜๊ฐ€ Z = -2.5์˜ ๋ถ„์œ„์ˆ˜์™€ ๊ฐ™๋‹ค.
      • X=-2๊นŒ์ง€ ์Œ“์ธ ๋ˆ„์  ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๊ฐ€ Z=-2.5๊นŒ์ง€ ์Œ“์ธ ๋ˆ„์  ๋ฐ์ดํ„ฐ์™€ ๊ฐ™๋‹ค : ์ •๊ทœ๋ถ„ํฌ
    • ์ 1 : X = -2์˜ ๋ถ„์œ„์ˆ˜๊ฐ€ Z = -3 ์˜ ๋ถ„์œ„์ˆ˜์™€ ๊ฐ™๋‹ค.
      • X=-2๊นŒ์ง€ ์Œ“์ธ ๋ˆ„์  ๋ฐ์ดํ„ฐ์˜ ์ˆ˜ < Z=-2.5๊นŒ์ง€ ์Œ“์ธ ๋ˆ„์  ๋ฐ์ดํ„ฐ : ์ •๊ทœ๋ถ„ํฌ๋ณด๋‹ค ์™ผ์ชฝ ๊ผฌ๋ฆฌ์— ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์–ด
    • ์ 2 : X = -2์˜ ๋ถ„์œ„์ˆ˜๊ฐ€ Z = -1.5 ์˜ ๋ถ„์œ„์ˆ˜์™€ ๊ฐ™๋‹ค.
      • X=-2๊นŒ์ง€ ์Œ“์ธ ๋ˆ„์  ๋ฐ์ดํ„ฐ์˜ ์ˆ˜ > Z=-2.5๊นŒ์ง€ ์Œ“์ธ ๋ˆ„์  ๋ฐ์ดํ„ฐ : ์ •๊ทœ๋ถ„ํฌ๋ณด๋‹ค ์™ผ์ชฝ ๊ผฌ๋ฆฌ์— ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„
    • ์ 3 : X = -2.4์˜ ๋ถ„์œ„์ˆ˜๊ฐ€ Z = -2.5 ์˜ ๋ถ„์œ„์ˆ˜์™€ ๊ฐ™๋‹ค.
      • Z=-2.5์˜ ๋ถ„์œ„์ˆ˜์™€ ๊ฐ™์€ ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์Œ“์œผ๋ ค๋ฉด X = -2.4 ๊นŒ์ง€ ์™€์•ผ ํ•œ๋‹ค.
    • ์ 4 : X = -1.2์˜ ๋ถ„์œ„์ˆ˜๊ฐ€ Z = -2.5 ์˜ ๋ถ„์œ„์ˆ˜์™€ ๊ฐ™๋‹ค.
      - Z=-2.5์˜ ๋ถ„์œ„์ˆ˜์™€ ๊ฐ™์€ ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์Œ“์œผ๋ ค๋ฉด X = -1.2 ๊นŒ์ง€ ์™€์•ผ ํ•œ๋‹ค.

      X๊ฐ’ ๊ธฐ์ค€์œผ๋กœ ์ ์ด ์šฐ์ธก์œผ๋กœ ์ด๋™ํ•˜๋ฉด์„œ Z์˜ ํ™•๋ฅ ๋ถ„ํฌ ๊ธฐ์ค€ ๋ฐ์ดํ„ฐ๊ฐ€ ์Œ“์ธ ๋ถ„๋Ÿ‰์„ ๋ณด์—ฌ์ค€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด X=-2์—์„œ ์ 1์—์„œ๋Š” X=-2๊นŒ์ง€ ์Œ“์ธ ๋ฐ์ดํ„ฐ์˜ ๋ถ„๋Ÿ‰์ด Z์˜ 3% ๋งŒํผ์˜ ๋ฐ์ดํ„ฐ ์˜€๋Š”๋ฐ, ์ 2์—์„œ๋Š” 15% ๋งŒํผ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ–๋Š”๋‹ค๋Š” ์‹์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ๊ทธ๋Ÿผ ์•„๋ž˜์˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด์„œ ์œ„ ๊ฐœ๋…์„ ํ•œ๋ฒˆ ์Šค์Šค๋กœ ์ดํ•ดํ•ด๋ณด์ž.


๋.

profile
ํ˜„์ง ๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€ / ๋ฐ์ดํ„ฐ ๊ณผํ•™์˜ ์ •๋„๋ฅผ ๋”ฐ๋ผ ๐Ÿšฒ / About DEV DA ML

0๊ฐœ์˜ ๋Œ“๊ธ€