# hadoop

150개의 포스트
post-thumbnail

[Hadoop] Hadoop TIL

- Hadoop 분산 파일 시스템의 병렬처리 프레임워크에서 실행되는 플랫폼 -> 데이터의 양이 많아짐에 따라 분산해서 저장 why? -> 한번에 큰 데이터를 한번에 저장하기 힘들기 때문에 -HDFS (Hadoop Distributed File System) 블록 파일 시스템과 디스크 블록과 같은 유형 마스터(데이터의 위치, 형식보관) - 슬레이브(실...

약 5시간 전
·
0개의 댓글
·
post-thumbnail

[하둡 완벽 가이드] 하둡 기술의 등장

현재 우리가 빅데이터 시대에 살고 있다는 것은 자명한 사실이며 데이터 아키텍처에게는 빅데이터에 대한 지식은 필수적인 역량이 되어 가고 있다.이 페이지를 시작으로 빅데이터 처리 프레임워크인 Hadoop에 대해서 알아갈 예정이다.우선, 모두 한 번쯤은 들어 보았을 빅데이터

2022년 8월 7일
·
0개의 댓글
·
post-thumbnail

2022. 08. 05(금) Spark & Hadoop 초격차 10일차

잘 작동되는걸 확인 할 수 있다.

2022년 8월 5일
·
0개의 댓글
·
post-thumbnail

2022. 08. 04(목) Spark & Hadoop 초격차 9일차

첫 번째 MapReduce - Join MovieAverageRateTopK 첫 번째 MapReduce - Unit Test MovieAverageRateTopKTest

2022년 8월 4일
·
0개의 댓글
·
post-thumbnail

2022. 08. 03(수) Spark & Hadoop 초격차 8일차

MRUnit을 이용한 Unit Test wordCountTest Mockito를 이용한 Unit Test wordCountTest With mockito

2022년 8월 3일
·
0개의 댓글
·
post-thumbnail

2022. 08. 02(화) Spark & Hadoop 초격차 7일차

Reduce-side join 실습 2 순서 정렬하고자 하는 값을 포함하는 복합 키 클래스 정의 정의한 복합키를 통해서 어느 리듀스에게 전달될지 결정하는 파티셔너 클래스 정의 리듀스에 입력될 값을 그룹핑해주는 클래스 정의 리듀스에 입력을 키를 기준으로 정렬해 주기위한

2022년 8월 3일
·
0개의 댓글
·
post-thumbnail

2022. 08. 01(월) Spark & Hadoop 초격차 6일차

정렬 실습 1 SortWordCount Map-side join 실습 MapSideJoinDistCache Reduce-side join

2022년 8월 1일
·
0개의 댓글
·

Hadoop, Hive, Spark, Airflow

Storage Unit -> HDFS 라 불림 HDFS : 데이터를 분산처리 하기 위해 저장소를 나눔 예) 600MB -> 128 MB \* 5 HDFS 의 장점은 하나의 저장소에 복제본을 저장해두기 때문에, 하나의 노드가 망가져도 상관없음 각각 특성에 맞게 나눠서 처

2022년 7월 29일
·
0개의 댓글
·
post-thumbnail

2022. 07. 29(금) Spark & Hadoop 초격차 5일차

메인 함수를 보면 ToolRunner 라는것을 이용해서 실제로 워드카운트를 실행중이다.하둡에서는 제네리 옵션 파서는 하둡잡을 커맨드라인을 통해 실행할 때 하둡의 컨피그레이션들을 실행인자를 통해서 설정이 가능하도록 지원해주는 도구제너리 옵션 파서를 편리하게 사용할 수 있

2022년 7월 29일
·
0개의 댓글
·
post-thumbnail

2022. 07. 28(목) Spark & Hadoop 초격차 4일차

마스터노드의 역할은 JobTracker 가 한다 워커노드의 역할은 TaskTracker가 수행한다JobTracker 의 부담으로 클러스터를 확장하는데 제한을 갖게되는 문제점이 있다확장성 병목신뢰성과 가용성 문제맵리듀스 프로그래밍 모델만 지원클러스터 이용률 문제JobTr

2022년 7월 28일
·
0개의 댓글
·
post-thumbnail

2022. 07. 26(화) Spark & Hadoop 초격차 2일차

여러 개의 컴퓨터 시스템, 애플리케이션 또는 서비스를 조율하고 관리하는 것복잡한 태스크와 워크플로를 쉽게 관리할 수 있도록 도와줌각 단계마다 데이터가 이동되면서 정해진 처리를 수행하고 해당 작업을 반복해서 수행한다각각의 실행되는 개별처리를 Task라고 한다.여러 태스크

2022년 7월 26일
·
0개의 댓글
·
post-thumbnail

Hive Server run Error

👉 Hadoop eco system 구축중이신 분👉 데이터 적재 및 처리를 위해 Hive를 사용하시는 분tez engine 기반의 Hive 구동 시, 에러 발생 확인

2022년 7월 26일
·
0개의 댓글
·
post-thumbnail

Sqoop SQL Server to Hive

👉 SQL Server 데이터를 Hive로 옮기시려는 분첫 번째 마이그레이션 이후, 데이터를 계속 덮어쓰는 방식을 사용하다가, 너무 답답해서 이어쓰는 방식을 채택시계열 데이터가 기반일 때, 정말 유용하다❗❗ 강추 ❗❗❗❗'load data inpath' 없이 Hive

2022년 7월 21일
·
0개의 댓글
·
post-thumbnail

Hadoop local to HDFS

👉 Linux(Ubuntu) 환경에서 Hadoop을 사용하시는 분👉 Local pc에서 HDFS로 파일을 옮기시려는 분플랫폼 구축 중, 문제가 발생해서?😂귀찮다고 코드 수정 안 하다가 수정한줄 착각하고 뫼비우스의 띠에 빠져서? 🤣🤣🤣저자는 귀차니즘으로 인해

2022년 7월 21일
·
0개의 댓글
·
post-thumbnail

하둡 싱글노드 클러스터 설정하기

하둡 싱글노드 클러스터를 pseudo-distributed 모드로 설정하는 과정에 대해서 설명하였다.

2022년 7월 17일
·
1개의 댓글
·

[Hadoop] Hdfs 여러 파일을 한개로 합치기!

Hadoop Echosystem을 운용하다 보면 Output 디렉토리에 여러 파일이 생기는 경우가 있다. 파일의 경우 하나의 파일로 나오지 않고 여러 파일로 생성이 되는데 이는 병렬 처리가 되는 과정에서 병목 현상을 줄이기 위해 여러개의 output파일로 만든다 get

2022년 7월 13일
·
0개의 댓글
·
post-thumbnail

맵 리듀스, 데이터 병렬성 - Hadoop

병렬성이 빅데이터를 가능하게 한다.여러개의 컴퓨팅 자원을 동시에 활용할 수 있어야만 테라바이트 수준의 데이터를 처리할 수 있다.수백대의 컴퓨터가 구성하는 클러스터에서 데이터와 연산 자체를 분산시키면서 수행한다.즉, 데이터 병렬성을 활용한다.맵 리듀스데이터에 맵을 적용한

2022년 7월 4일
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hdfs API를 사용하여 데이터 Upload & Download

Client -> Django -> S3, Spark -> S3유저가 업로드한 비디오 파일 & Spark에서 이미지 압축 파일를 S3로 전달 > Hdfs로 전달수정 이유S3 비용프레임마다 자른 img 압축 파일과 비디오 파일은 사용 빈도가 적음비디오 파일 및 img 압

2022년 7월 1일
·
1개의 댓글
·

WDA 빅데이터과정 2

https://drive.google.com/file/d/1i9wZYmUhA5SRMY9RJ05V_dsaX1qodLpZ/view?usp=sharinghttp://virtualbox.org virtualbox 6.1.32 platform package 랑

2022년 6월 19일
·
0개의 댓글
·

[Hadoop] Hadoop NameNode Cluster 상태 전이

Hdfs 운용중에 NameNode 클러스터를 구성하면서 네임노드와 StandBy네임노드 간의 상태전이가 이루어지는데 동시에 StandBy모드로 빠지는 경우가 종종 있다( Zookeeper 재시작, Hadoop Cluster Restart, SafeMode) 등등 😭

2022년 6월 14일
·
0개의 댓글
·