๐กKey Point๐ก
1. Regularization ๊ฐ๋ ์ดํด ๋ฐ ์ ๊ทํ(Normalization)์ ๊ตฌ๋ถ
2. L1 regularization, L2 regularization์ ์ฐจ์ด
3. Lp norm, Dropout, Batch Normalization์ ๋ํด ํ์ต
์ ์นํ. ์ค๋ฒํผํ ํด๊ฒฐ๋ฒ ์ค ํ๋.
์ค๋ฒํผํ ์ ๋ฐฉํด (train loss ์ฆ๊ฐ but validation/test loss ๋ ๊ฐ์)
์ค๋ฒํผํ
: train set ๊ฒฐ๊ณผ๋ ์ข๊ณ , validation/test set ๊ฒฐ๊ณผ๋ ์์ข์ ํ์
์ ๊ทํ. ์ ํฉํ๊ฒ ์ ์ฒ๋ฆฌํ๋ ๊ณผ์ .
0๊ณผ 1์ฌ์ด์ ๊ฐ์ผ๋ก ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์กฐ์ (z-score๋ก ๋ฐ๊พธ๊ฑฐ๋ minmax scaler ์ฌ์ฉ)
๋ฐ์ดํฐ ๊ฑฐ๋ฆฌ ๊ฐ ์ธก์ ์ด ํผ์ฒ ๊ฐ์ ๋ฒ์ ๋ถํฌ ํน์ฑ์ ์ํด ์๊ณก์ผ๋ก ์ธํ ํ์ต ๋ฐฉํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํจ
norm
: ๋ฒกํฐ๋ ํ๋ ฌ, ํจ์ ๋ฑ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ํ๋
์ด๋ฉด L1 norm์ ๋ก ๋ํ๋ผ ์ ์๋ค.
์ lasso ๋ท์ชฝ ์์๊ณผ ์ผ์นํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค!
์ถ์ฒ : https://en.wikipedia.org/wiki/Lasso_(statistics)
L1 Regularization
๊ฐ์ค์น๊ฐ ์ ์ ๋ฒกํฐ์ ํด๋นํ๋ ๊ณ์๋ฅผ 0์ผ๋ก ๋ณด๋
์ฐจ์ ์ถ์์ ๋น์ทํ ์ญํ
๋ฅผ ์ด์ฉ โ ๋ง๋ฆ๋ชจ ํํ์ ์ ์ฝ์กฐ๊ฑด
๋ฌธ์ ๊ฐ ์ ์ฝ์กฐ๊ฑด๊ณผ ๋ง๋๋ ์ง์ ์ด ํด
์ผ๋ถ ์ถ์์ ๊ฐ์ 0์ผ๋ก ๋ณด๋
L2 regularization
์์ ํํ๋ก ๋ํ๋จ
0์ ๊ฐ๊น๊ฒ (์จ์ ํ 0์ X) ๋ณด๋
Lasso๋ณด๋ค ์๋ ด์ด ๋น ๋ฆ
Norm: ๋ฒกํฐ, ํจ์, ํ๋ ฌ์ ๋ํด ํฌ๊ธฐ๋ฅผ ๊ตฌํ๋ ๊ฒ
์ ๋ณด๋ฅผ ๋ชจ๋ ๋ด๋ฐ์ ์ ๋ฌํ์ง ์๊ณ ๋๋คํ๊ฒ ๋ฒ๋ฆฌ๋ฉด์ ์ ๋ฌํ๋ ๊ธฐ๋ฒ
์ด์ ์๋ fully connected architecture๋ก ๋ชจ๋ ๋ด๋ฐ ์ฐ๊ฒฐ
๋๋กญ์์ ์ถํ ์ดํ ๋๋คํ๊ฒ ์ผ๋ถ ๋ด๋ด๋ง ์ ํํ์ฌ ์ ๋ณด ์ ๋ฌ
Regularization layer
ํ๋ฅ ์ด ๋๋ฌด ๋์ผ๋ฉด ํ์ต์ด ์ ๋์ง ์๊ณ , ๋๋ฌด ๋ฎ์ผ๋ฉด fully connected layer์ ๊ฐ์
fully connected layer์์ ์ค๋ฒํผํ โ Dropout layer ์ถ๊ฐ
gradient vanishing, explode ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ
Dropout: A Simple Way to Prevent Neural Networks from Overfitting
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
์์ง ๊ณ ๋ฐฑํ๋ฉด,,, ํด๋น ๋ ธ๋๋ ๋จธ๋ฆฌ์ ์ ์๋ค์ด์จ๋ค.. ๋ ๊ณต๋ถํด๋ด์ผํ ๊ฒ ๊ฐ๋ค ใ ใ