# HDFS

Sqoop SQL Server to Hive
👉 SQL Server 데이터를 Hive로 옮기시려는 분첫 번째 마이그레이션 이후, 데이터를 계속 덮어쓰는 방식을 사용하다가, 너무 답답해서 이어쓰는 방식을 채택시계열 데이터가 기반일 때, 정말 유용하다❗❗ 강추 ❗❗❗❗'load data inpath' 없이 Hive

Hadoop local to HDFS
👉 Linux(Ubuntu) 환경에서 Hadoop을 사용하시는 분👉 Local pc에서 HDFS로 파일을 옮기시려는 분플랫폼 구축 중, 문제가 발생해서?😂귀찮다고 코드 수정 안 하다가 수정한줄 착각하고 뫼비우스의 띠에 빠져서? 🤣🤣🤣저자는 귀차니즘으로 인해

[Hadoop] Hdfs API를 사용하여 데이터 Upload & Download
Client -> Django -> S3, Spark -> S3유저가 업로드한 비디오 파일 & Spark에서 이미지 압축 파일를 S3로 전달 > Hdfs로 전달수정 이유S3 비용프레임마다 자른 img 압축 파일과 비디오 파일은 사용 빈도가 적음비디오 파일 및 img 압
[Hadoop] Hadoop NameNode Cluster 상태 전이
Hdfs 운용중에 NameNode 클러스터를 구성하면서 네임노드와 StandBy네임노드 간의 상태전이가 이루어지는데 동시에 StandBy모드로 빠지는 경우가 종종 있다( Zookeeper 재시작, Hadoop Cluster Restart, SafeMode) 등등 😭

Impala 사용을 위한 HDFS 권한 설정
Impala 4.1.0 버전을 설치 완료한 상태에서 Impala 테스트를 위해 실행한 CREATE TABLE이 다음 오류를 뱉으며 정상 실행되지 않았다. Impala 계정은 hadoop 그룹에 속해있었으며 refreshUserToGroupsMappings 명령어를

Distributed Computing
A local process will use the computation resources of a single machine A distributed process has access to the computational resources across a number
하둡 분산 파일시스템(HDFS)
데이터가 단일 물리 머신의 저장 용량을 초과하게 되면 전체 데이터셋을 분리된 여러 머신에 나눠서 저장해야 함네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일시스템을 분산 파일시스템 이라고 함분산 파일시스템의 목표는 특정 노드에 장애가 발생해도 자료가 유실되지 않는
Hadoop이란
1. Hadoop이란? > - Hadoop은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신 적당한 성능의 범용 컴퓨터 여러대를 클러스터화하여 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 분산처리를 위한 오픈소스 프레임워크 2. Hadoop의 구성요소 1) Hadoop Common > - 하둡의...
[하둡] 하둡 분산 파일시스템
HDFS란 하둡은 HDFS라는 분산 파일시스템을 제공한다. (Hadoop Distributed File System) 데이터가 단일 물리 머신의 저장 용량을 초과하게 되면, 전체 데이터셋 분리된 여러 머신에 나눠서 저장할 필요가 있다. 네트워크로 연결된 여러 머신의
[Line Developer Day 2021] 대규모 스토리지에서 HDFS Erasure Coding을 사용할 때의 기술적 과제
DAY1 15:20-15:40 KST Youtube linkHDFS 는 Hadoop 하위 프로젝트로 분산형 파일시스템.서버가 다운되어도 데이터가 사라지지 않도록 하고 높은 처리 능력으로 RW 가능Master 인 NameNode 와 Slave 인 DataNode 로 구성
[Hadoop] Hadoop & HDFS
하둡이란?하둡은 대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 하둡은 구글이 논문으로 발표한 GFS(Google File System)과 맵리듀스(MapReduce)를 2005년 더그커팅이 구현한 결과물이다. 하둡은 분산시스템인 HDFS
[DE] Hadoop (HDFS)
빅데이터 관련 포스팅을 보면 대부분 하둡 에코시스템(Hadoop eco-system)을 사용하는것을 볼 수 있습니다. Hadoop에 대해 알아보도록 하겠습니다.
JAVA의 HDFS 종속성
HDFS 3.1.4 기준으로 서술됨수동으로 Library(jar)을 추가할 생각은 포기하는 편이 좋습니다.Maven 종속성 2개가 필요하며 version은 HDFS 버전에 대응시키시면 됩니다.