# MapReduce

22개의 포스트
post-thumbnail

MapReduce란?

💡 MapReduce는 구글에서 공개한 논문인 MapReduce: Simplified Data Processing on Large Cluster에서 소개한 프로그래밍 모델과 구현한 모듈 자체를 모두 지칭하는 말로 한 가지 Task를 여러 대의 컴퓨터에게 분산해서 처리

2023년 3월 20일
·
0개의 댓글
·

[하둡 완벽 가이드] 2. 맵리듀스

맵리듀스는 데이터 처리를 위한 프로그래밍 모델이다. 맵리듀스는 태생 자체가 병행성을 고려하여 설계되었고, 누구든지 이를 이용해 데이터 분석을 할 수 있다. 맵리듀스는 대용량 데이터셋에서 진가가 드러난다.예시로 쓰일 기상 데이터는 https://www.ncei.

2023년 2월 28일
·
0개의 댓글
·

빅데이터를 지탱하는 기술 - 5장

5장 빅데이터의 파이프라인

2023년 2월 14일
·
0개의 댓글
·

HDFS 작동방식

빅데이터를 전체 클러스터에 분산해 안정적으로 저장하여 애플리케이션이 그 데이터를 신속하게 액세스해 분석할 수 있게함.HDFS는 대용량 파일들을 다루기 위해 만들어짐.대용량 파일들을 작은 조각으로 나누어 클러스터 전체에 걸쳐 분산시키는데 최적화되어있다. \- 대용량 파

2022년 12월 20일
·
0개의 댓글
·
post-thumbnail

MapReduce

2004년 구글에서 발표한 Large Cluster 에서Data Processing 을 하기 위한 알고리즘Hadoop MapReduce 는 구글 알고리즘 논문을 소프트웨어 프레임워크로 구현한 구현체Key-Value 구조가 알고리즘의 핵심모든 문제를 해결하기에 적합하지는

2022년 12월 8일
·
0개의 댓글
·
post-thumbnail

Hadoop-ecosystem - Docker container로 구축해보기 (1)

hadoop ecosystem을 docker container로 구축해보는 테스트를 진행해봤습니다. centos 이미지를 base로 단계별로 dockernize하여 필요한 이미지를 빌드하고 서비스별 컨테이너를 실행하도록 구성했습니다. 사용한 언어 및 프레임워크 버전은

2022년 9월 5일
·
0개의 댓글
·
post-thumbnail

Apache Spark

비교적 최근에 (2012년) 등장하여 선풍적인 인기를 얻고 있는 분산처리 프레임워크메모리 기반의 처리를 통한 고성능과 Functional Programming 인터페이스를 활용한 편리한 인터페이스가 특징Hadoop (MapReduce)는 매번 중간 결과를 디스크에 저장

2022년 9월 2일
·
0개의 댓글
·
post-thumbnail

[Week2] 데이터 엔지니어링이란?) 04. Hadoop Ecosystem

💡 (Apache) Hadoop : High-Availability Distributed Object-Oriented Platform의 약자

2022년 8월 30일
·
0개의 댓글
·
post-thumbnail

MapReduce Framework

아주 많은 값싼 서버들을 이용함적은 수의 값비싼 서버들을 이용함두배의 성능을 가진 프로세서 한 개를 가진 컴퓨터의 가격이 일반적인 프로세서 한 개를 가진 컴퓨터 가격의 두 배보다 훨씬 더 비쌈한대의 컴퓨터의 능력으로 처리가 어려움근본적으로 수십대, 수백대 혹은 수천대의

2022년 8월 26일
·
0개의 댓글
·
post-thumbnail

[8.23 TIL] Hadoop

단일 서버에 수천대의 머신으로 확장할 수 있도록 설계되었다.일반적으로 하둡파일시스템(HDFS)과 맵리듀스(MapReduce)프레임워크로 시작되었으니, 여러 데이터 저장, 실행 엔진, 프로그래밍 및 데이터 처리와 같은 하둡 생태계(Haddoop Ecosystem) 전반을

2022년 8월 23일
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hadoop TIL

- Hadoop 분산 파일 시스템의 병렬처리 프레임워크에서 실행되는 플랫폼 -> 데이터의 양이 많아짐에 따라 분산해서 저장 why? -> 한번에 큰 데이터를 한번에 저장하기 힘들기 때문에 -HDFS (Hadoop Distributed File System) 블록 파일 시스템과 디스크 블록과 같은 유형 마스터(데이터의 위치, 형식보관) - 슬레이브(실...

2022년 8월 16일
·
0개의 댓글
·
post-thumbnail

Apache Hadoop

하둡은 누구나 무료로 사용할 수 있는 오픈소스(Open Source) 소프트웨어. 대량의 데이터 저장소라고 생각하면 된다. 오픈소스 분산 컴퓨팅 플랫폼 Java-based distributed 컴퓨팅 플랫폼 Scale - Out 형식(서버 대수를 증가하여 저장용량

2022년 7월 11일
·
0개의 댓글
·
post-thumbnail

[Hadoop] 맵 리듀스

과정 입력 데이터를 스플릿이라는 조각으로 나눈다. 스플릿의 크기는 작을 수록 더 많은 수의 컴퓨터로 병렬적으로 처리할 수 있기 때문에 좋다. 하지만 너무 작으면 스플릿 관리와 맵 태스크 생성을 위한 오버헤드 때문에 잡의 실행 시간이 증가한다. 일반적으로 HDFS 블록

2022년 2월 3일
·
0개의 댓글
·

[Hadoop] Mapreduce 기본

MapReduce 하둡이 제공하는 빌트인 도구 데이터를 클러스터에 분배하는 작업 수행 데이터를 파티션으로 나누어 클러스터에서 병렬로 처리할 수 있도록 함 Mapper 는 관심있는 데이터를 뽑아 데이터를 추출하고 구조화 Reducer 는 mapper 에서 변경, 추출

2022년 1월 10일
·
0개의 댓글
·
post-thumbnail

빅데이터응용

1\. 컴퓨터가 커다란 텍스트 파일을 분할하여 저장하고 있다.2\. 한번 쭉 읽어서 각각의 단어가 한번씩 나왔음을 의미하는 key-value 쌍을 만든다.3\. group by key를 하여 키 값이 같은 것끼리 묶어준다.4\. reduce를 실행하여 키 값이 같은 것

2021년 9월 25일
·
0개의 댓글
·

[DE] Hadoop (MapReduce)

대용량의 데이터 처리를 위한 분산 처리 프레임워크입니다. MapReduce 프레임워크를 이용하면 대량의 데이터를 병렬로 분석 가능합니다.

2021년 9월 1일
·
0개의 댓글
·
post-thumbnail

맵리듀스로 그리는 빅데이터 지도

빅'데이터 처리의 기본패턴 제타바이트(Zettabyte, $10^{21}$) 단위까지 증가한 데이터, 즉 빅데이터를 처리하기 위한 방법은 성능이 좋은 컴퓨터를 써야한다. 혹은 컴퓨터를 여러 대를 연결한 뒤 작업을 분할해 사용할 수도 있다. 멀티 코어, 멀티 프로세서 등

2021년 9월 1일
·
0개의 댓글
·

[DE] Hadoop (HDFS)

빅데이터 관련 포스팅을 보면 대부분 하둡 에코시스템(Hadoop eco-system)을 사용하는것을 볼 수 있습니다. Hadoop에 대해 알아보도록 하겠습니다.

2021년 8월 29일
·
0개의 댓글
·
post-thumbnail

Hadoop 메모

공부를 해보면서 Hadoop이라는 단어를 쓸 때 어떤 것을 지칭하는 지 확실히 해야 한다는 것을 느꼈음. 여러 문서를 읽어본 결과, 각각 문서에서 Hadoop이란 단어의 정확한 의미가 각자 다름. 예를들면..Hadoop이란 단어를 Hadoop Ecosystem 전체를

2021년 4월 18일
·
0개의 댓글
·
post-thumbnail

MapReduce Model?

위키피디아에서는 "MapReduce is a programming model and an associated implementation for processing and generating big data sets with a parallel, distributed a

2021년 2월 7일
·
0개의 댓글
·