[하둡 완벽 가이드] 하둡 기술의 등장

KDH·2022년 8월 7일
0

Hadoop

목록 보기
1/1
post-thumbnail

현재 우리가 빅데이터 시대에 살고 있다는 것은 자명한 사실이며 데이터 아키텍처에게는 빅데이터에 대한 지식은 필수적인 역량이 되어 가고 있다.

이 페이지를 시작으로 빅데이터 처리 프레임워크인 Hadoop에 대해서 알아갈 예정이다.

우선, 모두 한 번쯤은 들어 보았을 빅데이터에 대한 정의를 간단하게 알아보자.


빅데이터란?

빅데이터란 기존의 데이터베이스의 능력을 넘어서는 대량의 데이터를 의미하며, 이러한 데이터를 처리하고 분석하는 기술을 포함하고 있다.

  • 쉽게 생각하면 디지털 시대의 사람들은 일상의 대부분을 PC, 모바일 기기 등을 사용하면서 로그인 데이터, 웹 사이트 접속 데이터와 같은 다량의 데이터를 매일 생성한다. 그리고 이러한 데이터의 양이 급증하게 되면서 빅데이터란 개념이 등장했다고 생각하면 된다.

  • 그러나 기존의 단일 디스크를 이용하여 빅데이터를 처리하는 것에는 '데이터를 읽고 사용하는 것에 시간이 많이 필요'하다는 어려움이 존재하게 되었다.

  • 이를 해결하기 위해 여러 개의 디스크에서 데이터를 '병렬'로 읽고 사용하는 것을 고려하게 되었지만 이 부분에도 몇 가지의 어려움이 존재하게 되었다.


데이터를 병렬로 읽고 사용하는 것은 왜 어려울까?

  1. 하드웨어 장애의 문제가 존재한다.
  • 데이터 병렬 처리를 위해 많은 하드웨어를 사용할수록 장애가 발생할 확률이 높아진다.

  • 하드웨어 장애가 발생하면 데이터 손실이란 문제점이 발생한다.

  • ➡️ 데이터 손실의 문제를 해결하기 위해 데이터를 중복시켜 저장해주는 HDFS(분산 파일 시스템)이 등장하게 되었다.

  1. 분산되어 나눠진 데이터를 결합하는 것은 어렵다.
  • 여러 개의 디스크에 나눠진 데이터를 합치는 과정은 쉽지 않다.

  • ➡️ 이 문제를 해결하기 위해 데이터를 병렬 처리해주는 Map Reduce(맵리듀스) 프레임워크가 등장하게 되었다.

결국, 하둡은 빅데이터를 빠르게 처리하기 위해 HDFS(분산 파일 시스템)과 Map Reduce(맵리듀스) 프레임워크를 사용하게 되었다.


다시 말해, 하둡이란?

대용량의 데이터를 병렬 처리하여 처리 속도를 높이는 오픈소스 프레임워크이다.

결국, 빅데이터를 빠르게 처리하기 위해 등장한 기술이며, 오늘날의 빅데이터 실무자에게는 필수적인 기본 소양이 되는 것이다.

다음 시간에서는 아래 하둡의 아키텍처를 구성하고 있는 맵리듀스 분산 처리 프레임워크부터 하나씩 배워볼 예정이다.


하둡의 아키텍처: 분산 파일 시스템(HDFS) + 맵리듀스(Map Reduce)

  • HDFS: 데이터를 중복시켜 저장하여 데이터를 안전하게 보호하는 분산 파일 시스템

  • Map Reduce: 데이터를 병렬 처리해주는 분산 처리 프레임워크

*위 내용은 [하둡 완벽 가이드] 저자: 톰 화이트 의 내용을 기반으로 작성되었습니다.

profile
나의 개인적 성장과 Data Architect로서의 성장 과정을 기록하는 공간

0개의 댓글