๐ก MapReduce๋ ๊ตฌ๊ธ์์ ๊ณต๊ฐํ ๋
ผ๋ฌธ์ธ MapReduce: Simplified Data Processing on Large Cluster์์ ์๊ฐํ ํ๋ก๊ทธ๋๋ฐ ๋ชจ๋ธ๊ณผ ๊ตฌํํ ๋ชจ๋ ์์ฒด๋ฅผ ๋ชจ๋ ์ง์นญํ๋ ๋ง๋ก ํ ๊ฐ์ง Task๋ฅผ ์ฌ๋ฌ ๋์ ์ปดํจํฐ์๊ฒ ๋ถ์ฐํด์ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ์๋ฏธํฉ๋๋ค.
map( )์ Task๋ฅผ ๋ถ์ฐํ์ฌ ๊ฐ ์ฌ๋ฌ๋์ ์ปดํจํฐ์ mappingํด์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ
reduce( )๋ ๊ทธ๋ ๊ฒ ์ฒ๋ฆฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ณํฉํฉ๋๋ค.
๋น
๋ฐ์ดํฐ ๋ถ์ฐ ์ฒ๋ฆฌ ํ๋ ์์ํฌ์ธ Hadoop์ ํต์ฌ ๋ชจ๋, ๋ถ์ฐ ์ฒ๋ฆฌ ์์ง์ผ๋ก ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
MapReduce

- ์ ๊ทธ๋ฆผ์ ํ๋ฆ์ ๋ํด์ ์ค๋ช
ํ์๋ฉด ํ๋ก๊ทธ๋จ mapreduce๋ฅผ ํธ์ถ์ ํ๋ฉด master์๋ฒ๋ฅผ ํตํด map๊ณผ reduce๋ฅผ ํ ๋นํฉ๋๋ค.
- ํ ๋น ๋ฐ์ map worker๋ค์ ๋ถ์ฐ๋ ๋ฐ์ดํฐ๋ฅผ ์ฝ์ด์์ ์ฒ๋ฆฌํ ๊ฒฐ๊ณผ๋ฅผ ์ค๊ฐ ํ์ผ(๋ก์ปฌ ๋์คํฌ)์ ์ ์ฅํฉ๋๋ค.
- worker๋ค ์ค Reduce phase์ ์๋ worker๋ ๋ก์ปฌ ๋์คํฌ์ ์๋ ์ฒ๋ฆฌํ ์ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ณํฉ, ์ ๋ ฌํ์ฌ oupt์ ๋ธ๋ค๊ณ ํฉ๋๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ ๊ฒ R๊ฐ์ output์ด ์๋๋ฐ ๊ตณ์ด ํ๋์ ํ์ผ๋ก ํฉ์น ํ์๋ ์๋ค๊ณ ์ค๋ช
ํ๊ณ ์์ต๋๋ค. ๊ทธ ์ด์ ๋ก๋ ์ด output๊ทธ๋๋ก ์๋ก์ด mapreduce์์
์ ๋ฃ์ ์๋ ์๊ณ , ๋ค๋ฅธ ๋ถ์ฐ ์ดํ๋ฆฌ์ผ์ด์
์๋ ์ฌ๋ฌ ํ์ผ์ ํ ๋ฒ์ ์ฝ์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ํฉ๋๋ค.
- ๋
ผ๋ฌธ์์ ๋ณด๋ฉด 2-4GB ์ ๋ ๋๋ ๋ฉ๋ชจ๋ฆฌ์ ๋ฆฌ๋
์คํ๊ฒฝ์ ์ปดํจํฐ๋ฅผ ํ์ฉํ๋ฉฐ, ์ ๋ฐฑ์์ ์์ฒ๊ฐ์ worker๋ฅผ ์ด์ํ๊ธฐ ๋๋ฌธ์ work failure์ ๋น๋ฒํ๊ฒ ์ผ์ด๋๋ค๊ณ ํฉ๋๋ค. ๋ํ ๋ฌด์ ์ง ๊ฐ๋์ ๋ํ ์ค๋ช
์ด ์๋๋ฐ GFS๋ฅผ ์๋ฏธํ๋ ๊ฒ ๊ฐ์ต๋๋ค.(์ค๋ช
ํ๋ ๊ฒ์ด GFS๋ ๋๊ฐ์). Master๋ ์ฃผ๊ธฐ์ ์ผ๋ก worker(chunk server)์๊ฒ ํ์ ๋ณด๋ด์ ์๋ต์ด ์๋ worker๋ failed๋ก markํ๋ ๋ฐฉ์์ผ๋ก worker failure์ ์ฒดํฌํ๋ค๊ณ ํฉ๋๋ค.
- ์์ธํ ๋ด์ฉ์ ๊ฑฐ์ ๋
ผ๋ฌธ์ ๋ฒ์ญํ ์์ค์ธ ์๋ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์๋ฉด ์ข์ต๋๋ค. ์ ๋ ๋
ผ๋ฌธ๊ณผ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํด์ ์ ๊ธฐ์ค์์ ์ดํดํ ๋ด์ฉ์ ์์ฑํ์ต๋๋ค.
์ฐธ๊ณ