# HDFS

23개의 포스트
post-thumbnail

Sqoop SQL Server to Hive

👉 SQL Server 데이터를 Hive로 옮기시려는 분첫 번째 마이그레이션 이후, 데이터를 계속 덮어쓰는 방식을 사용하다가, 너무 답답해서 이어쓰는 방식을 채택시계열 데이터가 기반일 때, 정말 유용하다❗❗ 강추 ❗❗❗❗'load data inpath' 없이 Hive

2022년 7월 21일
·
0개의 댓글
·
post-thumbnail

Hadoop local to HDFS

👉 Linux(Ubuntu) 환경에서 Hadoop을 사용하시는 분👉 Local pc에서 HDFS로 파일을 옮기시려는 분플랫폼 구축 중, 문제가 발생해서?😂귀찮다고 코드 수정 안 하다가 수정한줄 착각하고 뫼비우스의 띠에 빠져서? 🤣🤣🤣저자는 귀차니즘으로 인해

2022년 7월 21일
·
0개의 댓글
·
post-thumbnail

HDFS

하둡

2022년 7월 14일
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hdfs API를 사용하여 데이터 Upload & Download

Client -> Django -> S3, Spark -> S3유저가 업로드한 비디오 파일 & Spark에서 이미지 압축 파일를 S3로 전달 > Hdfs로 전달수정 이유S3 비용프레임마다 자른 img 압축 파일과 비디오 파일은 사용 빈도가 적음비디오 파일 및 img 압

2022년 7월 1일
·
1개의 댓글
·

[Hadoop] Hadoop NameNode Cluster 상태 전이

Hdfs 운용중에 NameNode 클러스터를 구성하면서 네임노드와 StandBy네임노드 간의 상태전이가 이루어지는데 동시에 StandBy모드로 빠지는 경우가 종종 있다( Zookeeper 재시작, Hadoop Cluster Restart, SafeMode) 등등 😭

2022년 6월 14일
·
0개의 댓글
·

Spark - HDFS 외부 접근 시 hostname으로 통신

dfs.client.use.datanode.hostname

2022년 6월 14일
·
0개의 댓글
·
post-thumbnail

Impala 사용을 위한 HDFS 권한 설정

Impala 4.1.0 버전을 설치 완료한 상태에서 Impala 테스트를 위해 실행한 CREATE TABLE이 다음 오류를 뱉으며 정상 실행되지 않았다. Impala 계정은 hadoop 그룹에 속해있었으며 refreshUserToGroupsMappings 명령어를

2022년 5월 27일
·
0개의 댓글
·
post-thumbnail

Distributed Computing

A local process will use the computation resources of a single machine A distributed process has access to the computational resources across a number

2022년 4월 7일
·
0개의 댓글
·

하둡 분산 파일시스템(HDFS)

데이터가 단일 물리 머신의 저장 용량을 초과하게 되면 전체 데이터셋을 분리된 여러 머신에 나눠서 저장해야 함네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일시스템을 분산 파일시스템 이라고 함분산 파일시스템의 목표는 특정 노드에 장애가 발생해도 자료가 유실되지 않는

2022년 3월 19일
·
1개의 댓글
·
post-thumbnail

[TIL] 하둡 생태계에 대한 간단한 이야기

하둡의 생태계 알고 싶쥬? 개 어렵쥬?

2022년 3월 4일
·
0개의 댓글
·

Hadoop이란

1. Hadoop이란? > - Hadoop은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신 적당한 성능의 범용 컴퓨터 여러대를 클러스터화하여 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 분산처리를 위한 오픈소스 프레임워크 2. Hadoop의 구성요소 1) Hadoop Common > - 하둡의...

2022년 2월 18일
·
0개의 댓글
·

[하둡] 하둡 분산 파일시스템

HDFS란 하둡은 HDFS라는 분산 파일시스템을 제공한다. (Hadoop Distributed File System) 데이터가 단일 물리 머신의 저장 용량을 초과하게 되면, 전체 데이터셋 분리된 여러 머신에 나눠서 저장할 필요가 있다. 네트워크로 연결된 여러 머신의

2022년 2월 17일
·
0개의 댓글
·

[Line Developer Day 2021] 대규모 스토리지에서 HDFS Erasure Coding을 사용할 때의 기술적 과제

DAY1 15:20-15:40 KST Youtube linkHDFS 는 Hadoop 하위 프로젝트로 분산형 파일시스템.서버가 다운되어도 데이터가 사라지지 않도록 하고 높은 처리 능력으로 RW 가능Master 인 NameNode 와 Slave 인 DataNode 로 구성

2021년 12월 15일
·
0개의 댓글
·

[Hadoop] Hadoop & HDFS

하둡이란?하둡은 대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 하둡은 구글이 논문으로 발표한 GFS(Google File System)과 맵리듀스(MapReduce)를 2005년 더그커팅이 구현한 결과물이다. 하둡은 분산시스템인 HDFS

2021년 11월 28일
·
0개의 댓글
·

HDFS 명령어

hdfs 명령어

2021년 9월 26일
·
0개의 댓글
·
post-thumbnail

[BigData] Hadoop HDFS의 파일 읽기, 쓰기 동작 과정

HDFS 데이터 READ/WRITE

2021년 9월 13일
·
0개의 댓글
·

[DE] Hadoop (HDFS)

빅데이터 관련 포스팅을 보면 대부분 하둡 에코시스템(Hadoop eco-system)을 사용하는것을 볼 수 있습니다. Hadoop에 대해 알아보도록 하겠습니다.

2021년 8월 29일
·
0개의 댓글
·
post-thumbnail

[ADP] 분산 파일 시스템 정리 및 비교

분산 파일 시스템 ✅ GFS, HDFS 정리 및 비교

2021년 6월 25일
·
0개의 댓글
·

JAVA의 HDFS 종속성

HDFS 3.1.4 기준으로 서술됨수동으로 Library(jar)을 추가할 생각은 포기하는 편이 좋습니다.Maven 종속성 2개가 필요하며 version은 HDFS 버전에 대응시키시면 됩니다.

2021년 6월 17일
·
0개의 댓글
·