[ML] Overfitting, Underfitting

zhenxiยท2021๋…„ 8์›” 15์ผ
0

ML ๊ฐœ๋… ๋ณด์ถฉ

๋ชฉ๋ก ๋ณด๊ธฐ
1/2

๐Ÿคš [์ฐธ๊ณ ] ์•„์ง ML์— ์ž…๋ฌธํ•œ์ง€ ํ•œ๋‹ฌ๋ฐ–์— ์•ˆ๋œ ๋จธ๋ฆฐ์ด๊ฐ€ ๋ณต์Šต์„ ์œ„ํ•ด '์ž์‹ ๋งŒ์˜ ์–ธ์–ด๋กœ' ์ •๋ฆฌํ•œ ๊ธ€์ž…๋‹ˆ๋‹ค.๐Ÿคš


์ด๋ฒˆ sprint์—์„œ Overfitting(๊ณผ์ ํ•ฉ)์— ๋Œ€ํ•ด ๋ฐฐ์› ๋‹ค. ๋ถ„์‚ฐ(variance)๋ผ๋˜์ง€, ํŽธํ–ฅ(bias)์ด๋ผ๋˜์ง€, ๋ถ„์‚ฐํŽธํ–ฅํŠธ๋ ˆ์ด๋“œ์˜คํ”„(!)๋ผ๋˜์ง€ ์กฐ๊ธˆ ๋ณต์žกํ•ด ๋ณด์ด๋Š” ์šฉ์–ด๋“ค์ด ๋‚˜์™€ ์ฐธ ์™€๋‹ฟ์ง€ ์•Š์€ ํŒŒํŠธ์˜€๋‹ค. ๊ทธ๋ž˜์„œ ๋ธ”๋กœ๊ทธ์— ์ •๋ฆฌํ•˜๋ฉฐ ํ•œ๋ฒˆ๋” ๊ฐœ๋…์„ ๋‹ค์žก์•„๋ณด๊ณ ์ž ํ•œ๋‹ค.

๋ชฉํ‘œ๋Š” ์ผ๋ฐ˜ํ™”์˜ ๊ด€์ ์—์„œ ์˜ค๋ฒ„ํ”ผํŒ…๊ณผ ์–ธ๋”ํ”ผํŒ…์„ ์„ค๋ช…ํ•ด๋ณด์ž! ์ด๋‹ค.

๋ฌดํ„ฑ๋Œ€๊ณ  ์ด๋ ‡๊ฒŒ ๋งํ•˜๋ฉด ์กฐ๊ธˆ ๋ง‰๋ง‰ํ•œ ๊ฐ์ด ์—†์ž–์•„ ์žˆ์ง€๋งŒ, ํ๋ฆ„์— ๋”ฐ๋ผ ํ•œ๋ฒˆ ๊ฐœ๋…๋“ค์„ ์•Œ์•„๊ฐ€๋ณด๋ฉด, ์ด ๊ธ€์˜ ๋์—์„œ๋Š” ์ด๊ฒŒ ๋˜๋„ค? ์˜ ๊ธฐ์ ์„ ๊ฒฝํ—˜ํ•  ๊ฒƒ์ด๋‹ค.

๋ณธ๊ฒฉ์ ์œผ๋กœ ์˜ค๋ฒ„ํ”ผํŒ…์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ธฐ ์ „์—, ์šฐ์„  ํŽธํ–ฅ๊ณผ ๋ถ„์‚ฐ์— ๋Œ€ํ•œ ๊ฐœ๋…์„ ์•Œ๊ณ  ์žˆ๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

1. ํŽธํ–ฅ๊ณผ ๋ถ„์‚ฐ

1.1 ํŽธํ–ฅ์ด๋ž€?

๋‚˜๋Š” train ๋ฐ์ดํ„ฐ(ํŒŒ๋ž€์ ๋“ค)๋กœ ํšŒ๊ท€์„ ์„ ๋งŒ๋“ค๊ณ ์ž ํ•œ๋‹ค. ์–ด๋– ํ•œ ์„ ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์ข‹์„๊นŒ? (๊ทธ๋ฆผ ์ถœ์ฒ˜ StatQuest!!!)

์™ผ์ชฝ์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด ์ง์„  ํšŒ๊ท€์„ ์ด ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ง€๋‚œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„๊นŒ? ์•„๋‹ˆ๋‹ค. ๋ณด๋‹ค์‹ถ์ด, ์„ ๊ณผ ๋ฐ์ดํ„ฐ๊ฐ„ ๋–จ์–ด์ง„ ๊ฑฐ๋ฆฌ์˜ ํ•ฉ์ด ๊ตฌ๋ถˆ์„ ๋ณด๋‹ค ํ›จ์”ฌ ํฌ๋‹ค.

์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” ํŽธํ–ฅ์˜ ๊ฐœ๋…์— ๋Œ€ํ•ด ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.

ํŽธํ–ฅ์ด๋ž€ ํšŒ๊ท€์„ ์ด ๋ฐ์ดํ„ฐ๋“ค์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋งž์ถ”๊ณ  ์žˆ๋Š”์ง€๋ฅผ ๋งํ•œ๋‹ค.

ํŽธํ–ฅ์ด ์ž‘์„์ˆ˜๋ก ํšŒ๊ท€์„ ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜๋งž์ถ”๊ณ , ํด์ˆ˜๋ก ์ž˜ ๋ชป๋งž์ถ˜๋‹ค. (๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ดํ•ด๋„๋กœ ์ƒ๊ฐํ•˜๋ฉด ํŽธํ–ฅ์ด ์ž‘์„์ˆ˜๋ก ์ดํ•ด๋„๊ฐ€ ๋†’๊ณ , ํŽธํ–ฅ์ด ํด์ˆ˜๋ก ์ดํ•ด๋„๊ฐ€ ๋‚ฎ๋‹ค.)

๊ณ ๋กœ,
์ง์„ ์˜ ๊ฒฝ์šฐ, ํŽธํ–ฅ์ด ํฌ๊ณ 
๊ตฌ๋ถˆ์„ ์˜ ๊ฒฝ์šฐ, ํŽธํ–ฅ์ด ์ž‘์•˜๋‹ค.

๊ทธ๋Ÿผ ํŽธํ–ฅ์ด ์ž‘์€ ์˜ค๋ฅธ์ชฝ ํšŒ๊ท€๊ฐ€ ์ข‹์€ ๊ฒƒ์ผ๊นŒ?
์šฐ๋ฆฌ๋Š” ์ง€๊ธˆ train data์— ๋Œ€ํ•œ ํŽธํ–ฅ๋งŒ ๋ณด์•˜๋‹ค๋Š” ์‚ฌ์‹ค์„ ์žŠ์–ด์„  ์•ˆ๋œ๋‹ค. (์•„์ง test data๊ฐ€ ๋‚จ์•˜์ฃ ..)

2.2 ๋ถ„์‚ฐ์ด๋ž€?

์œ„ ์‚ฌ์ง„์„ ๋ณด๋ฉด ์•„๊นŒ์˜ ํŒŒ๋ž€ ์ ์„ ์ œ์™ธํ•œ ์ดˆ๋ก์ ์ด ๋ฐ”๋กœ test data์ด๋‹ค. ์•„๊นŒ์˜ ํšŒ๊ท€์„ ์— test data๊ฐ€ ๋ฟ…ํ•˜๊ณ  ์ƒ๊ธฐ๋‹ˆ๊น ๋ฐ”๋กœ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธด๋‹ค.

๋ฐ”๋กœ train์—์„œ ๋„ˆ๋ฌด ์ž˜ ๋งž์•˜๋˜ ์˜ค๋ฅธ์ชฝ ๊ตฌ๋ถˆ ํšŒ๊ท€์„ ์ด test data์—์„œ๋Š” ์˜ ํž˜์„ ์“ฐ์ง€ ๋ชปํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. (์˜คํžˆ๋ ค ์™ผ์ชฝ ์ง์„  ํšŒ๊ท€์„ ์ด ๋‘๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์„ ๋†“๊ณ  ๋ดค์„๋•Œ ๋” ๋‚˜์€ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ธ๋‹ค.)

์šฐ๋ฆฌ๋Š” ์—ฌ๊ธฐ์„œ ๋ถ„์‚ฐ์ด ์–ด๋–ค ๊ฒƒ์ธ์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

train ๋ฐ์ดํ„ฐ์™€, test ๋ฐ์ดํ„ฐ ์‚ฌ์ด์˜ ์ฐจ์ด. ์ด๊ฒƒ์ด ๋ฐ”๋กœ ๋ถ„์‚ฐ!


๊ทธ๋ ‡๋‹ค๋ฉด ์ด ๋‘๊ฐœ์˜ dataset์—์„œ ๋ถ„์‚ฐ์ด ํฐ ๊ทธ๋ž˜ํ”„๋Š” ๋ฌด์—‡์ผ๊นŒ?
๊ทธ๋ ‡๋‹ค, train๋ฐ์ดํ„ฐ์—์„œ๋Š” ์™„๋ฒฝํ•˜๊ฒŒ ๋“ค์–ด๋งž์•˜์ง€๋งŒ, test๋ฐ์ดํ„ฐ์—์„œ๋Š” ์˜ ํž˜์„ ๋ชป์“ฐ๋˜ ๊ตฌ๋ถˆ์„ ์ด๋‹ค. ์ง์„  ํšŒ๊ท€์„ ์€ ๋น„๊ต์  ๋ถ„์‚ฐ์ด ์ž‘๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋Ÿผ ์šฐ๋ฆฌ๋Š” ์—ฌ๊ธฐ์„œ ํ•˜๋‚˜์˜ ๊ฒฐ๋ก ์— ๋‹ค๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค.

ํŽธํ–ฅ์ด ํด์ˆ˜๋ก ๋ถ„์‚ฐ์€ ์ž‘์•„์ง€๊ณ ,
ํŽธํ–ฅ์ด ์ž‘์„ ์ˆ˜๋ก ๋ถ„์‚ฐ์€ ์ปค์ง„๋‹ค.

์ด๋ฅผ ์šฐ๋ฆฌ๋Š” ๋ถ„์‚ฐํŽธํ–ฅํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ผ๊ณ  ํ•œ๋‹ค.
์ดํ•ด๊ฐ€ ์•ˆ๋˜๋ฉด ๋จผ์ € train ๊ทธ๋ž˜ํ”„์—์„œ ์–ด๋–ค ๊ฒƒ์ด ์ž‘์€์ง€ ์‚ดํŽด๋ณด๊ณ , test๋ฐ์ดํ„ฐ์—์„œ ์–ด๋–ค ๊ฒƒ์ด ๋ถ„์‚ฐ์ด ํฐ์ง€ ์‚ดํŽด๋ณด๋ฉด ๋ฐ”๋กœ ๊ฐ์ด ์˜ฌ ๊ฒƒ์ด๋‹ค.(ํ˜น์€ ๋ฐ˜๋Œ€๋กœ ์‚ดํŽด๋ด๋„ ๋ฌด๋ฐฉํ•˜๋‹ค.)

์ด์ œ ์˜ค๋ฒ„ํ”ผํŒ…๊ณผ ์–ธ๋”ํ”ผํŒ…์— ๋Œ€ํ•ด ์•Œ์•„๋ณผ ์ฐจ๋ก€์ด๋‹ค. ํ•˜์ง€๋งŒ ๋†€๋ž๊ฒŒ๋„ ์šฐ๋ฆฌ๋Š” ์œ„์—์„œ ๋ถ„์‚ฐ๊ณผ ํŽธํ–ฅ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ฉฐ ์˜ค๋ฒ„ํ”ผํŒ…์˜ ๊ฐœ๋…์— ๋Œ€ํ•ด ์ด๋ฏธ ์ ‘๊ทผํ–ˆ๋‹ค!

2. ์˜ค๋ฒ„ํ”ผํŒ…๊ณผ ์–ธ๋”ํ”ผํŒ…


์•„๊นŒ ๋ถ„์‚ฐ๊ณผ ํŽธํ–ฅ์„ ์„ค๋ช…ํ• ๋•Œ ์ผ๋˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋‹ค์‹œ ๋ณด์ž.

์šฐ์„ , ์˜ค๋ฅธ์ชฝ์˜ ๊ตฌ๋ถˆ ํšŒ๊ท€์„ ์„ ๋ณด์ž.
๊ตฌ๋ถˆ ํšŒ๊ท€์„ ์€ ์•„๊นŒ์˜ train ๋ฐ์ดํ„ฐ์—์„œ ๋„ˆ๋ฌด๋‚˜๋„ fit๋œ, ๊ณง ํŽธํ–ฅ์ด ์ž‘์€ ํšŒ๊ท€์„ ์ด์—ˆ๋‹ค. ํ•˜์ง€๋งŒ test๋ฐ์ดํ„ฐ์—์„œ๋Š” ์–ด๋–ค๊ฐ€? ์™„์ „ํžˆ ์ œ ๊ตฌ์‹ค์„ ํ•˜๊ณ  ์žˆ์ง€ ์•Š๋‹ค.

์ด์ฒ˜๋Ÿผ ๋„ˆ๋ฌด ๊ณผ๋„ํ•˜๊ฒŒ ํ•™์Šต๋˜์–ด train๋ฐ์ดํ„ฐ์—์„œ๋Š” ์™„๋ฒฝํ•˜๊ฒŒ ์ž‘๋™ํ•˜์ง€๋งŒ test๋ฐ์ดํ„ฐ์—์„œ ์ œ ๊ธฐ๋Šฅ์„ ๋ชปํ•˜๊ฒŒ ๋œ ๊ฒƒ์„ overfitting์ด๋ผ๊ณ  ํ•œ๋‹ค.

๋‹ค์Œ์œผ๋กœ ์™ผ์ชฝ์˜ ์ง์„  ํšŒ๊ท€์„ ์„ ๋ณด์ž.
์šฐ์„  ๊ตฌ๋ถˆ์„ ๋ณด๋‹ค๋Š” ์‚ฌ์ •์ด ๋‚ซ๋‹ค. ํŽธํ–ฅ์ด ์กฐ๊ธˆ ๋†’์ง€๋งŒ, ๋ถ„์‚ฐ์ด ๋น„๊ต์  ๋‚ฎ๊ณ , ๊ตฌ๋ถˆ์„ ๋ณด๋‹ค๋Š” ์ œ ๊ธฐ๋Šฅ์„ ํ•˜๊ณ  ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฐ linearํšŒ๊ท€์„ ์—๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ๋ฐ”๋กœ underfitting๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

underfitting์ด๋ž€ train(๋ฐ์ดํ„ฐ ํ•ด์„)์ด ์ œ๋Œ€๋กœ ๋˜์ง€ ์•Š์€ ๊ฒƒ์ด๋‹ค.

underfit๋œ ๋ชจ๋ธ์€ ํŽธํ–ฅ์ด ๋†’๋‹ค. (๋ฐ์ดํ„ฐ ํ•ด์„์ด ์ œ๋Œ€๋กœ ์•ˆ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ํšŒ๊ท€์„ ์ด ๋ฐ์ดํ„ฐ๋“ค์—๊ฒŒ ๋งž์ถ”์ง€ ๋ชปํ•œ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐ)

3. ์ผ๋ฐ˜ํ™”๋ž€?

์ผ๋ฐ˜ํ™”๋ž€ ๋ฌด์—‡์ธ๊ฐ€?
์šฐ๋ฆฌ๋Š” ์œ„์—์„œ ๊ณผ๋ถ„์‚ฐ(์˜ค๋ฒ„ํ•)์˜ ๊ฒฝ์šฐ์™€ ๊ณผํŽธํ–ฅ(์–ธ๋”ํ•)์˜ ๊ฒฝ์šฐ๋ฅผ ๋ณด๋ฉฐ ๊นจ๋‹ฌ์€ ์ ์ด ์žˆ๋‹ค.

BEST๋Š” ๊ณผ๋ถ„์‚ฐ๋„, ๊ณผํŽธํ–ฅ๋„ ์•„๋‹Œ ๊ทธ ๋ฐ˜๋Œ€, ์ ์€ ํŽธํ–ฅ๊ณผ, ์ ์€ ๋ถ„์‚ฐ

์ ์€ ํŽธํ–ฅ์„ ๊ฐ€์ง€๋ฉด, ๊ณง ๋ฐ์ดํ„ฐ ํ•ด์„๊ณผ ์ดํ•ด๊ฐ€ ์ž˜๋˜์—ˆ๋‹ค๋Š” ๊ฒƒ์ด๊ณ , ์ ์€ ๋ถ„์‚ฐ์„ ๊ฐ€์ง€๋ฉด train ๋ฐ์ดํ„ฐ, test ๋ฐ์ดํ„ฐ์˜ ์ฐจ์ด๊ฐ€ (์—ฌ๊ธฐ์„œ ์ฐจ์ด๋Š” ๊ฐ ๋ฐ์ดํ„ฐ๋“ค๊ณผ ํšŒ๊ท€์„ ์˜ ๋–จ์–ด์ง„ ๊ฑฐ๋ฆฌ์˜ ์ฐจ๋ฅผ ๋งํ•œ๋‹ค.) ์–ผ๋งˆ ์—†๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์ด์ฒ˜๋Ÿผ ์ ์€ ํŽธํ–ฅ๊ณผ ์ ์€ ๋ถ„์‚ฐ์„ ๊ฐ€์ง„ ํšŒ๊ท€๋ฅผ ์ผ๋ฐ˜ํ™”๊ฐ€ ์ž˜๋˜์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

4. ์ •๋ฆฌ

์œ„-์™ผ : ๋‚ฎ๋ถ„, ๋‚ฎํŽธ : ์ผ๋ฐ˜ํ™”๊ฐ€ ์ž˜๋œ ๋ชจ๋ธ
์œ„-์˜ค : ๋†’๋ถ„, ๋‚ฎํŽธ : ์˜ค๋ฒ„ํ”ผํŒ…
์•„๋ž˜-์™ผ : ๋‚ฎ๋ถ„, ๋†’ํŽธ : ์–ธ๋”ํ”ผํŒ…
์•„๋ž˜-์˜ค : ๋†’๋ถ„, ๋†’ํŽธ : ์ฃฝ๋„ ๋ฐฅ๋„ ์•ˆ๋œ ์™„๋ฒฝํ•œ ์–ธ๋”ํ”ผํŒ…

์ด์ฏค์—์„œ ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋ฅผ ์ƒ๊ธฐ์‹œ์ผœ๋ณด๋„๋ก ํ•˜์ž.

๋ชฉํ‘œ๋Š” ์ผ๋ฐ˜ํ™”์˜ ๊ด€์ ์—์„œ ์˜ค๋ฒ„ํ”ผํŒ…๊ณผ ์–ธ๋”ํ”ผํŒ…์„ ์„ค๋ช…ํ•ด๋ณด์ž! ์ด๋‹ค.

์•„๋งˆ ์–ด๋ ต์ง€ ์•Š์„๊ฒƒ์ด๋‹ค.

์ผ๋ฐ˜ํ™”๊ฐ€ ์ž˜ ๋˜์ง€ ์•Š์€ ๋ชจ๋ธ์ผ ๊ฒฝ์šฐ, ์˜ค๋ฒ„ํ”ผํŒ…๊ณผ ์–ธ๋”ํ”ผํŒ…์˜ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธด๋‹ค!

profile
์ธ๋ฌธํ•™๋„(์˜€๋˜ ๊ฒƒ)

0๊ฐœ์˜ ๋Œ“๊ธ€