What is Hadoop
Hadoop 플랫폼의 주요 벤더인 Hortonworks는 하둡을 이렇게 정의.
범용 하드웨어로 구축된 컴퓨터 클러스터의 아주 방대한 데이터 세트틀 분산해 저장하고 처리하는 오픈 소스 소프트웨어 플랫폼
Hadoop
- 오픈 소스
- 한대의 PC가 아닌 컴퓨터 클러스터에서 작동하는 소프트웨어 묶음
- Hadoop은 어느 데이터 센터에서 작동중인 컴퓨터 클러스터 전체에서 실행되도록 설계됨.
- 즉 Hadoop은 다수의 PC를 활용해 빅데이터를 다룬다.
- 분산저장
- 분산 저장은 Hadoop이 제공하는 주 기능.
- 한 개의 하드 드라이브에 국한되지 않는다.
- 빅데이터(1TB)를 처리할 때 클러스터에 컴퓨터를 더하기만 하면 그 컴퓨터는 하드 드라이브가 데이터 저장소의 일부가 됨.
- Hadoop은 클러스터의 모든 하드 드라이브에 걸쳐 분산돼 있는 모든 데이터를 단일 파일 시스템으로 보여줌.
- 데이터의 여분 제공
- Hadoop은 클러스터의 컴퓨터 중 하나가 사용 불가 상태에 놓여있어도 이런 상황을 데이터 백업 복사본을 클러스터의 다른 컴퓨터에도 보관하기 때문에 자동으로 소실된 데이터를 복구할 수 있음.
- 분산 처리
- Hadoop은 데이터를 다른 양식으로 전환하거나 다른 시스템으로 전송할 때 혹은 집계해야 할 때 모든 작업을 병렬로 처리한다.
- 클러스터 내 모든 컴퓨터 CPU에게 이 작업을 분배하여 동시에 처리.
- 많은 데이터를 신속히 처리할 수 있음.
- 처리할 수 없다면 컴퓨터를 추가하면 가능.