클라우드 분산 처리

강채희·2021년 7월 5일

클라우드 소학회 - CLOUDCLUB

목록 보기

14/15

분산 처리와 클라우드 분산 처리

분산 처리란?

하나의 중앙 처리 장치가 처리 또는 제어하고 있던 기능을 여러 개의 처리 장치에 분산시켜 처리하는 방식

중앙의 대형 컴퓨터에 의한 집중 처리와는 달리 데이터의 발생 장소에서 처리를 하는 방식
-> 현행 방식은 완전 분산 방식이 아닌 집중과 분산의 장점을 취합해 사용

클라우드 분산 처리란?

분산 처리 기술과 클라우드 서비스를 이용하여 데이터를 여러 개 서버에 나누어 병렬 처리하는 방식

대량의 데이터를 분산 처리 하는 방법으로 여러 개의 서버를 결합하여 하나의 컴퓨터처럼 보이게 만드는 기술을 의미

빅데이터 분석과 같이 다양한 데이터를 처리할 때에는 클라우드가 적합

클러스터와 관련 개념 및 기법

cluster?

같은 속성을 갖는 대상을 여러 개 모아서 하나의 대상으로 한 것이라는 의미

여러 개의 서버를 결합하여 하나의 컴퓨터로 보이게 함

clustering?

데이터를 서로 유사한 정도에 따라 군집으로 분류하는 작업

수많은 정보를 재빠르게 접할 수 있도록 도와주는 재미있고 쉽고 자연스러운 저널기법

분산 처리를 구현하는 소프트웨어

Apache Hadoop

◼ 분산 데이터 인프라스트럭처로, 범용화된 서버의 클러스터와 함께 다양한 노드에서 대량의 데이터 컬렉션을 배포 (더이상 값비싼 하드웨어를 구매하고 유지하는 것이 필요하지 않다는 것을 의미)
◼ 데이터에 대해 색인하고 계속 유지하면서 이전에 가능했던 처리, 분석보다 효과적으로 빅데이터 처리와 분석
◼ 하둡의 기술

◾ HDFS(Hadoop Distributed File System)라고 불리는 스토리지 요소
◾ 맵리듀스(MapReduce)라고 불리는 데이터 처리 요소 : 단계적으로 실행

◼ 하둡은 데이터가 디스크에 쓰여진 이후 시스템 고장이나 실패로부터 자연적으로 회복력이 있음

Apache Spark

◼ 분산된 데이터 컬렉션에서 실행하는 데이터 처리 툴이지 분산 스토리지가 아님
◼ Hadoop이 없어도 스파크 사용 가능
-> 다만, Spark는 Hadoopd을 위해 설계됐기에 함께 사용하는 것을 권장
◼ 맵리듀스보다 빠른 속도 : Spark는 전체 데이터 셋에서 단번에 데이터 처리
-> 다만, Spark의 빠른 속도가 필요치 않을 수도 있음 (스트리밍 데이터 분석 or 복합적인 실행이 필요할 경우 Spark)
◼ 스파크는 소위 RDD(Resilient Distributed Datasets)라 부르는 회복력 있는 분산 데이터 셋 개념으로, 유사한 회복력을 내장

참고사이트

분산 처리
클라우드 기술 (컨테이너,분산처리,데이터베이스)
클러스터
클러스터 기법
하둡과 아파치 스파크에 대해 알아야 할 5가지

강채희

이전 포스트

AWS Data Pipeline vs AWS Glue

다음 포스트