์ฐ๋ฆฌ๋ ์ฃผ์ด์ง 300๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์ฌ์ง์ ์ถ๋ ฅํ๊ณ ๋ถ๋ฅํ๋ค. ์ฐ๋ฆฌ๋ ํญ์ ํ์ ๋ ์ฉ๋ ์์์ ์ด๊ณ ์๊ธฐ ๋๋ฌธ์ ๋๋ฌด ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉด ๋ฐ์ดํฐ๋ฅผ ๊ณ์ ์ถ๊ฐํด๋ ์ธ์ ๊ฐ ๋ฑ์ด๋ด๋ ๋ฐ์ดํฐ๊ฐ ์๊ธด๋ค. k-ํ๊ท ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ๋ก๋๋ ์ฌ์ง์ ํด๋ฌ์คํฐ๋ก ๋ถ๋ฅํ์ฌ ํด๋
์ด์ ์๋ ๊ฐ ํฝ์ ๊ฐ์ ํ๊ท ์ ๊ตฌํ์ฌ ๊ทธ ํฝ์ ๊ฐ์ ํ๊ท ๊ณผ ๊ฐ์ฅ ๊ฐ๊น์ด ์ฌ์ง์ ๊ณจ๋๋ค. ํ์ง๋ง ์ง์ง ๋น์ง๋ ํ์ต์์๋ ํ๊น๊ฐ์ ๊ฐ๋ฅด์ณ์ฃผ์ง ์์ผ๋ฏ๋ก ์ด๋ค ๊ณผ์ผ์ด ๋ค์ด์๋์ง ๋ชจ๋ฅธ๋ค.์ด๋ฐ ๊ฒฝ์ฐ ์ด๋ป๊ฒ ํ๊ท ์ ๊ตฌํ ์ ์์๊น? ๋ฐ๋ก <span style="color:1) ๋ฌด
ํ๊น์ด ์์ ๋ ์ฌ์ฉํ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์๋๋ฐ, ๋ฐ๋ก <span style="color:์ด๋ค ์์ผ๋ก ๋ถ๋ฅํ๋์ง ์๋ฌธ์ด ์๊ธด๋ค. ํฝ์ ๊ฐ์ผ๋ก ํ๋ฒ ์ฌ์ง์ ๋ถ๋ฅํด๋ณผ๊น?์ฌ๊ธฐ์ ์บ๊ธ์์ ๊ณต๊ฐ๋ ๋ฐ์ดํฐ์ ์ธ ์ฌ๊ณผ, ๋ฐ๋๋, ํ์ธ์ ํ์ ๋ด๊ณ ์๋ ํ๋ฐฑ ์ฌ์ง์ ์ฌ์ฉํ๊ฒ ๋ค. ์ด ๋ฐ์ดํฐ
์ฐ๋ฆฌ๋ ์ง๊ธ๊น์ง ์ ์ ๋ฆฌ๋ CSV ํ์ผ์ ๋ค๋ค๋ค. ์ด๋ฐ ํํ์ ๋ฐ์ดํฐ๋ฅผ <span style="color:๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ํ ๋ฐ์ดํฐ์ ์ ๋ง๋ค. ๊ทธ์ค ์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ๊ฐ์ฅ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ด๋ ์๊ณ ๋ฆฌ์ฆ์ด <span style="color:<
<span style="color:์ฒซ ๋ฒ์ฌ ๋งค๊ฐ๋ณ์์ ๊ต์ฐจ ๊ฒ์ฆ์ ์ํํ ๋ชจ๋ธ ๊ฐ์ฒด๋ฅผ ์ ๋ฌํ๋ค. ๋ ๋ฒ์งธ์ ์ธ ๋ฒ์งธ ๋งค๊ฐ๋ณ์์ ํน์ฑ๊ณผ ํ๊น ๋ฐ์ดํฐ๋ฅผ ์ ๋ฌํ๋ค.scoring ๋งค๊ฐ๋ณ์์ ๊ฒ์ฆ์ ์ฌ์ฉํ ํ๊ฐ ์งํ๋ฅผ ์ง์ ํ ์ ์๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ๋ถ๋ฅ ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ์๋ฏธ
์ฐ๋ฆฌ๋ ์ง๊ธ๊น์ง ํ๋ จ ์ธํธ๋ก ๋ชจ๋ธ์ ํ๋ จํ๊ณ ํ ์คํธ ์ธํธ์์ ๋ชจ๋ธ์ ํ๊ฐํ๋ค. ๊ทธ๋ฐ๋ฐ ํ ์คํธ ์ธํธ๋ฅผ ์ฌ์ฉํด ๊ณ์ ์ฑ๋ฅ์ ํ์ธํ๋ค ๋ณด๋ฉด ์ ์ ํ ์คํธ ์ธํธ์ ๋ง์ถ๊ฒ ๋๋ ์ ์ด ๋์ด๋ฒ๋ฆฐ๋ค. ํ ์คํธ ์ธํธ๋ก ์ผ๋ฐํ ์ฑ๋ฅ์ ์ฌ๋ฐ๋ฅด๊ฒ ์์ธกํ๋ ค๋ฉด ๋๋๋ก ํ ์คํธ ์ธํธ๋ฅผ ์ฌ์ฉํ์ง ๋ง์์ผ
<span style="color:<span style="color:percentiles ๋งค๊ฐ๋ณ์์์ ๋ฐฑ๋ถ์์๋ฅผ ์ง์ ํ๋ค. ๊ธฐ๋ณธ๊ฐ์ 0.25, 0.5, 0.75 ์ด๋ค.<span style="color:criterion ๋งค๊ฐ๋ณ์๋ ๋ถ์๋๋ฅผ ์ง์ ํ๋ฉฐ ๊ธฐ๋ณธ๊ฐ
๋ก์ง์คํฑ ํ๊ท๋ก ๋ฐ์ดํฐ ๋ถ๋ฅํ๊ธฐ Input Output ๋ฐ์ดํฐ์ ์ ํ๋ค์ค ๋ฐ์ดํฐํ๋ ์์ผ๋ก ์ ๋๋ก ์ฝ์ด ๋ค์๋์ง head() ๋ฉ์๋๋ก ํ์ธํ ์ ์๋ค. ์ฐ๋ฆฌ๋ ์ด ์ค๋น๋ ๋ฐ์ดํฐ๋ก alcohol, sugar, pH ๊ฐ์ ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ์ ์ฉํ๊ณ ์ด ๊ฐ๋ค์ ๊ฐ์ง๊ณ
<span style="color:<span style="color:<span style="color:<span style="color:<span style="color:<span style="color:loss ๋งค๊ฐ๋ณ์์์ ์์ค ํจ์๋ฅผ
๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋๋ฉด ๊ทธ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ด๋ค๊ฒ ์์๊น? ์ถ๊ฐ๋ ๋๋ง๋ค ํ์ต์ ์ํค๋ ๋ฐฉ๋ฒ์ด ์์ ๊ฒ์ด๋ค. ํ์ง๋ง ์ด๋ ๊ฒ ํ๋ฉด ์๊ฐ์ด ์ง๋ ์๋ก ๋ฐ์ดํฐ๊ฐ ๋์ด๋๋ ๊ฒ์ด๋ค. ์ฒ์ ๋ฉฐ์น ์ ๊ด์ฐฎ๊ฒ ์ง๋ง ์ง์์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ์ฌ ๋ช ๋ฌ, ๋ช ๋ ์ด ์ง๋๋ฉด ์ง๋์น๊ฒ ๋ง์ ๋ฐ
<span style="color:solver ๋งค๊ฐ๋ณ์์์ ์ฌ์ฉํ ์๊ณ ๋ฆฌ์ฆ์ ์ ํํ ์ ์๋ค. ๊ธฐ๋ณธ๊ฐ์ 'lbfgs'์ด๋ค. 'sag'๋ ํ๋ฅ ์ ํ๊ท ํ๊ฐ๋ฒ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํน์ฑ๊ณผ ์ํ ์๊ฐ ๋ง์ ๋ ์ฑ๋ฅ์ด ๋น ๋ฅด๊ณ ์ข๋ค.penalty ๋งค๊ฐ๋ณ์์์ L2 ๊ท์ ์ L1 ๊ท์
๋ฐ์ดํฐ ์ค๋นํ๊ธฐ Input Output ๋งจ ์ผ์ชฝ์ ์ซ์๋ ํ ๋ฒํธ์ด๊ณ ๋งจ ์์ ์ฐ์ฌ์ง Species, Weight, Length, Diagonal, Height, Width๋ ์ด ์ ๋ชฉ์ด๋ค. pandas๋ CSV ํ์ผ์ ์ฒซ ์ค์ ์๋์ผ๋ก ์ธ์ํด ์ด ์ ๋ชฉ์ผ๋ก ๋ง๋ค์ด
<span style="color:sep๋ CSV ํ์ผ์ ๊ตฌ๋ถ์๋ฅผ ์ง์ ํ๋ค. ๊ธฐ๋ณธ๊ฐ์ ์ฝค๋ง(.)์ด๋ค.header์ ๋ฐ์ดํฐํ๋ ์์ ์ด ์ด๋ฆ์ผ๋ก ์ฌ์ฉํ CSV ํ์ผ์ ํ ๋ฒํธ๋ฅผ ์ง์ ํ๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ฒซ ๋ฒ์งธ ํ์ ์ด ์ด๋ฆ์ผ๋ก ์ฌ์ฉํ๋ค.skiprows๋ ํ์ผ์์ ์ฝ๊ธฐ
<span style="color:<span style="color:InputOutputCSV file -> pandas dataframe -> numpy array์ฆ CSV ํ์ผ์ ํ๋ค์ค ๋ฐ์ดํฐํ๋ ์์ ๊ฑฐ์น๊ณ ๋ํ์ด ๋ฐฐ์ด๋ก ๋ฐ๊ฟ์ฃผ์๋ค.Inputํ๊น ๋ฐ์ดํฐ๋ฅผ
<span style="color:fit_intercept ๋งค๊ฐ๋ณ์๋ฅผ False๋ก ์ง์ ํ๋ฉด ์ ํธ์ ํ์ตํ์ง ์๋๋ค. ์ด ๋งค๊ฐ๋ณ์์ ๊ธฐ๋ณธ ๊ฐ์ True์ด๋ค.ํ์ต๋ ๋ชจ๋ธ์ coef\_ ์์ฑ์ ํน์ฑ์ ๋ํ ๊ณ์๋ฅผ ํฌํจํ ๋ฐฐ์ด์ด๋ค. ์ฆ ์ด ๋ฐฐ์ด์ ํฌ๊ธฐ๋ ํน์ฑ์ ๊ฐ์์ ๊ฐ
K-์ต๊ทผ์ ์ด์์ ํ๊ณ Input ์ต๊ทผ์ ์ด์ ๊ฐ์๋ฅผ 3์ผ๋ก ํ๋ ๋ชจ๋ธ์ ํ๋ จํ๋ค. Input Output ๋์ ๋ชจ๋ธ์ 50cm perch์ ๋ฌด๊ฒ๋ฅผ 1,033g ์ ๋๋ก ์์ธกํ๋ค. ๊ทธ๋ฐ๋ฐ ์ค์ ์ด perch์ ๋ฌด๊ฒ๋ ํจ์ฌ ๋ ๋ง์ด ๋๊ฐ๋ค๊ณ ํ๋ค. ์ด๋์ ๋ฌธ์ ๊ฐ
<span style="color:<span style="color:์ด ํจ์๋ ํ๊น๊ณผ ์์ธก์ ๋บ ๊ฐ์ ์ ๊ณฑํ ๋ค์ ์ ์ฒด ์ํ์ ๋ํ ํ๊ท ํ ๊ฐ์ ๋ฐํํ๋ค.<span style="color:
์ด๋ฒ์ ์ด ์ ์ ํ๋ ๊ฒ์ฒ๋ผ ๋ถ๋ฅ๊ฐ ์๋ ๋ฌด๊ฒ๋ฅผ ์์ธกํด ๋ณผ ๊ฒ์ด๋ค. ์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํฌ๊ฒ ๋ถ๋ฅ์ <span style="color:K-์ต๊ทผ์ ์ด์ ํ๊ท. ์ค์ฌ์ K-NN์ด๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค. K-์ต๊ทผ์ ์ด์ ํ๊ท๋ ์์ธกํ๋ ค๋ ์ํ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ํ k๊ฐ๋ฅผ ์ ํํ
<span style="color:<span style="color:<span style="color:return_distance ๋งค๊ฐ๋ณ์๋ฅผ False๋ก ์ง์ ํ๋ฉด ์ด์ ์ํ์ ์ธ๋ฑ์ค๋ง ๋ฐํํ๊ณ ๊ฑฐ๋ฆฌ๋ ๋ฐํํ์ง ์๋๋ค. ์ด ๋งค๊ฐ๋ณ์์ ๊ธฐ๋ณธ๊ฐ์ True์ด๋ค
numpy๋ก ๋ฐ์ดํฐ ์ค๋นํ๊ธฐ Input ์ ์๋ ํ์ด์ฌ ๋ฆฌ์คํธ๋ฅผ ์ํํ๋ฉด์ ์์๋ฅผ ํ๋์ฉ ๊บผ๋ด ๊ธธ์ด์ ๋ฌด๊ฒ๋ฅผ ๋ฆฌ์คํธ ์์ ๋ฆฌ์คํธ๋ก ์ง์ ๊ตฌ์ฑํ๋ค. ๋ํ์ด๋ก ์ด๋ณด๋ ํจ์ฌ ๋ ๊ฐํธํ๊ฒ ๋ง๋ค ์ ์๋ค. ์ฐ์ ๋ํ์ด๋ฅผ ์ํฌํธํ๋ค. Input ๋ํ์ด์ columnstack