๐ค [์ฐธ๊ณ ] ์์ง ML์ ์ ๋ฌธํ์ง ํ๋ฌ๋ฐ์ ์๋ ๋จธ๋ฆฐ์ด๊ฐ ๋ณต์ต์ ์ํด '์์ ๋ง์ ์ธ์ด๋ก' ์ ๋ฆฌํ ๊ธ์ ๋๋ค.๐ค
๋ชฉํ๋ ์ผ๋ฐํ์ ๊ด์ ์์ ์ค๋ฒํผํ ๊ณผ ์ธ๋ํผํ ์ ์ค๋ช ํด๋ณด์! ์ด๋ค.
๋ฌดํฑ๋๊ณ ์ด๋ ๊ฒ ๋งํ๋ฉด ์กฐ๊ธ ๋ง๋งํ ๊ฐ์ด ์์์ ์์ง๋ง, ํ๋ฆ์ ๋ฐ๋ผ ํ๋ฒ ๊ฐ๋ ๋ค์ ์์๊ฐ๋ณด๋ฉด, ์ด ๊ธ์ ๋์์๋ ์ด๊ฒ ๋๋ค? ์ ๊ธฐ์ ์ ๊ฒฝํํ ๊ฒ์ด๋ค.
๋ณธ๊ฒฉ์ ์ผ๋ก ์ค๋ฒํผํ ์ ๋ํด ์์๋ณด๊ธฐ ์ ์, ์ฐ์ ํธํฅ๊ณผ ๋ถ์ฐ์ ๋ํ ๊ฐ๋ ์ ์๊ณ ์๋ ๊ฒ์ด ์ข๋ค.
๋๋ train ๋ฐ์ดํฐ(ํ๋์ ๋ค)๋ก ํ๊ท์ ์ ๋ง๋ค๊ณ ์ ํ๋ค. ์ด๋ ํ ์ ์ ๋ง๋๋ ๊ฒ์ด ์ข์๊น? (๊ทธ๋ฆผ ์ถ์ฒ StatQuest!!!)
์ผ์ชฝ์ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด ์ง์ ํ๊ท์ ์ด ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ ํํ๊ฒ ์ง๋๋ค๊ณ ํ ์ ์์๊น? ์๋๋ค. ๋ณด๋ค์ถ์ด, ์ ๊ณผ ๋ฐ์ดํฐ๊ฐ ๋จ์ด์ง ๊ฑฐ๋ฆฌ์ ํฉ์ด ๊ตฌ๋ถ์ ๋ณด๋ค ํจ์ฌ ํฌ๋ค.
์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ํธํฅ์ ๊ฐ๋ ์ ๋ํด ๋งํ ์ ์๋ค.
ํธํฅ์ด๋ ํ๊ท์ ์ด ๋ฐ์ดํฐ๋ค์ ์ผ๋ง๋ ์ ๋ง์ถ๊ณ ์๋์ง๋ฅผ ๋งํ๋ค.
ํธํฅ์ด ์์์๋ก ํ๊ท์ ์ด ๋ฐ์ดํฐ๋ฅผ ์๋ง์ถ๊ณ , ํด์๋ก ์ ๋ชป๋ง์ถ๋ค. (๋ฐ์ดํฐ์ ๋ํ ์ดํด๋๋ก ์๊ฐํ๋ฉด ํธํฅ์ด ์์์๋ก ์ดํด๋๊ฐ ๋๊ณ , ํธํฅ์ด ํด์๋ก ์ดํด๋๊ฐ ๋ฎ๋ค.)
๊ณ ๋ก,
์ง์ ์ ๊ฒฝ์ฐ, ํธํฅ์ด ํฌ๊ณ
๊ตฌ๋ถ์ ์ ๊ฒฝ์ฐ, ํธํฅ์ด ์์๋ค.
๊ทธ๋ผ ํธํฅ์ด ์์ ์ค๋ฅธ์ชฝ ํ๊ท๊ฐ ์ข์ ๊ฒ์ผ๊น?
์ฐ๋ฆฌ๋ ์ง๊ธ train data์ ๋ํ ํธํฅ๋ง ๋ณด์๋ค๋ ์ฌ์ค์ ์์ด์ ์๋๋ค. (์์ง test data๊ฐ ๋จ์์ฃ ..)
์ ์ฌ์ง์ ๋ณด๋ฉด ์๊น์ ํ๋ ์ ์ ์ ์ธํ ์ด๋ก์ ์ด ๋ฐ๋ก test data์ด๋ค. ์๊น์ ํ๊ท์ ์ test data๊ฐ ๋ฟ ํ๊ณ ์๊ธฐ๋๊น ๋ฐ๋ก ๋ฌธ์ ๊ฐ ์๊ธด๋ค.
๋ฐ๋ก train์์ ๋๋ฌด ์ ๋ง์๋ ์ค๋ฅธ์ชฝ ๊ตฌ๋ถ ํ๊ท์ ์ด test data์์๋ ์ ํ์ ์ฐ์ง ๋ชปํ๋ค๋ ๊ฒ์ด๋ค. (์คํ๋ ค ์ผ์ชฝ ์ง์ ํ๊ท์ ์ด ๋๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋๊ณ ๋ดค์๋ ๋ ๋์ ๊ฒ์ฒ๋ผ ๋ณด์ธ๋ค.)
์ฐ๋ฆฌ๋ ์ฌ๊ธฐ์ ๋ถ์ฐ์ด ์ด๋ค ๊ฒ์ธ์ง ์ ์ ์๋ค.
train ๋ฐ์ดํฐ์, test ๋ฐ์ดํฐ ์ฌ์ด์ ์ฐจ์ด. ์ด๊ฒ์ด ๋ฐ๋ก ๋ถ์ฐ!
๊ทธ๋ ๋ค๋ฉด ์ด ๋๊ฐ์ dataset์์ ๋ถ์ฐ์ด ํฐ ๊ทธ๋ํ๋ ๋ฌด์์ผ๊น?
๊ทธ๋ ๋ค, train๋ฐ์ดํฐ์์๋ ์๋ฒฝํ๊ฒ ๋ค์ด๋ง์์ง๋ง, test๋ฐ์ดํฐ์์๋ ์ ํ์ ๋ชป์ฐ๋ ๊ตฌ๋ถ์ ์ด๋ค. ์ง์ ํ๊ท์ ์ ๋น๊ต์ ๋ถ์ฐ์ด ์๋ค๊ณ ํ ์ ์๋ค.
๊ทธ๋ผ ์ฐ๋ฆฌ๋ ์ฌ๊ธฐ์ ํ๋์ ๊ฒฐ๋ก ์ ๋ค๋ค๋ฅผ ์ ์๋ค.
ํธํฅ์ด ํด์๋ก ๋ถ์ฐ์ ์์์ง๊ณ ,
ํธํฅ์ด ์์ ์๋ก ๋ถ์ฐ์ ์ปค์ง๋ค.
์ด๋ฅผ ์ฐ๋ฆฌ๋ ๋ถ์ฐํธํฅํธ๋ ์ด๋์คํ๋ผ๊ณ ํ๋ค.
์ดํด๊ฐ ์๋๋ฉด ๋จผ์ train ๊ทธ๋ํ์์ ์ด๋ค ๊ฒ์ด ์์์ง ์ดํด๋ณด๊ณ , test๋ฐ์ดํฐ์์ ์ด๋ค ๊ฒ์ด ๋ถ์ฐ์ด ํฐ์ง ์ดํด๋ณด๋ฉด ๋ฐ๋ก ๊ฐ์ด ์ฌ ๊ฒ์ด๋ค.(ํน์ ๋ฐ๋๋ก ์ดํด๋ด๋ ๋ฌด๋ฐฉํ๋ค.)
์ด์ ์ค๋ฒํผํ ๊ณผ ์ธ๋ํผํ ์ ๋ํด ์์๋ณผ ์ฐจ๋ก์ด๋ค. ํ์ง๋ง ๋๋๊ฒ๋ ์ฐ๋ฆฌ๋ ์์์ ๋ถ์ฐ๊ณผ ํธํฅ์ ๋ํด ์์๋ณด๋ฉฐ ์ค๋ฒํผํ ์ ๊ฐ๋ ์ ๋ํด ์ด๋ฏธ ์ ๊ทผํ๋ค!
์๊น ๋ถ์ฐ๊ณผ ํธํฅ์ ์ค๋ช ํ ๋ ์ผ๋ ๊ทธ๋ํ๋ฅผ ๋ค์ ๋ณด์.
์ฐ์ , ์ค๋ฅธ์ชฝ์ ๊ตฌ๋ถ ํ๊ท์ ์ ๋ณด์.
๊ตฌ๋ถ ํ๊ท์ ์ ์๊น์ train ๋ฐ์ดํฐ์์ ๋๋ฌด๋๋ fit๋, ๊ณง ํธํฅ์ด ์์ ํ๊ท์ ์ด์๋ค. ํ์ง๋ง test๋ฐ์ดํฐ์์๋ ์ด๋ค๊ฐ? ์์ ํ ์ ๊ตฌ์ค์ ํ๊ณ ์์ง ์๋ค.
์ด์ฒ๋ผ ๋๋ฌด ๊ณผ๋ํ๊ฒ ํ์ต๋์ด train๋ฐ์ดํฐ์์๋ ์๋ฒฝํ๊ฒ ์๋ํ์ง๋ง test๋ฐ์ดํฐ์์ ์ ๊ธฐ๋ฅ์ ๋ชปํ๊ฒ ๋ ๊ฒ์ overfitting์ด๋ผ๊ณ ํ๋ค.
๋ค์์ผ๋ก ์ผ์ชฝ์ ์ง์ ํ๊ท์ ์ ๋ณด์.
์ฐ์ ๊ตฌ๋ถ์ ๋ณด๋ค๋ ์ฌ์ ์ด ๋ซ๋ค. ํธํฅ์ด ์กฐ๊ธ ๋์ง๋ง, ๋ถ์ฐ์ด ๋น๊ต์ ๋ฎ๊ณ , ๊ตฌ๋ถ์ ๋ณด๋ค๋ ์ ๊ธฐ๋ฅ์ ํ๊ณ ์๋ค. ํ์ง๋ง ์ด๋ฐ linearํ๊ท์ ์๋ ๋ฌธ์ ๊ฐ ์๋ค. ๋ฐ๋ก underfitting๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋ ๊ฒ์ด๋ค.
underfitting์ด๋ train(๋ฐ์ดํฐ ํด์)์ด ์ ๋๋ก ๋์ง ์์ ๊ฒ์ด๋ค.
underfit๋ ๋ชจ๋ธ์ ํธํฅ์ด ๋๋ค. (๋ฐ์ดํฐ ํด์์ด ์ ๋๋ก ์๋์๊ธฐ ๋๋ฌธ์ ํ๊ท์ ์ด ๋ฐ์ดํฐ๋ค์๊ฒ ๋ง์ถ์ง ๋ชปํ ๊ฒ์ด๋ผ๊ณ ์๊ฐ)
์ผ๋ฐํ๋ ๋ฌด์์ธ๊ฐ?
์ฐ๋ฆฌ๋ ์์์ ๊ณผ๋ถ์ฐ(์ค๋ฒํ)์ ๊ฒฝ์ฐ์ ๊ณผํธํฅ(์ธ๋ํ)์ ๊ฒฝ์ฐ๋ฅผ ๋ณด๋ฉฐ ๊นจ๋ฌ์ ์ ์ด ์๋ค.
BEST๋ ๊ณผ๋ถ์ฐ๋, ๊ณผํธํฅ๋ ์๋ ๊ทธ ๋ฐ๋, ์ ์ ํธํฅ๊ณผ, ์ ์ ๋ถ์ฐ
์ ์ ํธํฅ์ ๊ฐ์ง๋ฉด, ๊ณง ๋ฐ์ดํฐ ํด์๊ณผ ์ดํด๊ฐ ์๋์๋ค๋ ๊ฒ์ด๊ณ , ์ ์ ๋ถ์ฐ์ ๊ฐ์ง๋ฉด train ๋ฐ์ดํฐ, test ๋ฐ์ดํฐ์ ์ฐจ์ด๊ฐ (์ฌ๊ธฐ์ ์ฐจ์ด๋ ๊ฐ ๋ฐ์ดํฐ๋ค๊ณผ ํ๊ท์ ์ ๋จ์ด์ง ๊ฑฐ๋ฆฌ์ ์ฐจ๋ฅผ ๋งํ๋ค.) ์ผ๋ง ์๋ค๋ ๊ฒ์ด๋ค.
์ด์ฒ๋ผ ์ ์ ํธํฅ๊ณผ ์ ์ ๋ถ์ฐ์ ๊ฐ์ง ํ๊ท๋ฅผ ์ผ๋ฐํ๊ฐ ์๋์๋ค๊ณ ํ๋ค.
์-์ผ : ๋ฎ๋ถ, ๋ฎํธ : ์ผ๋ฐํ๊ฐ ์๋ ๋ชจ๋ธ
์-์ค : ๋๋ถ, ๋ฎํธ : ์ค๋ฒํผํ
์๋-์ผ : ๋ฎ๋ถ, ๋ํธ : ์ธ๋ํผํ
์๋-์ค : ๋๋ถ, ๋ํธ : ์ฃฝ๋ ๋ฐฅ๋ ์๋ ์๋ฒฝํ ์ธ๋ํผํ
์ด์ฏค์์ ์ฐ๋ฆฌ์ ๋ชฉํ๋ฅผ ์๊ธฐ์์ผ๋ณด๋๋ก ํ์.
๋ชฉํ๋ ์ผ๋ฐํ์ ๊ด์ ์์ ์ค๋ฒํผํ ๊ณผ ์ธ๋ํผํ ์ ์ค๋ช ํด๋ณด์! ์ด๋ค.
์๋ง ์ด๋ ต์ง ์์๊ฒ์ด๋ค.