# bigdata

Paper Review #1 "Lifelong and Continual Learning Dialogue Systems: Learning during Conversation"
논문 리뷰 - Continual learning

Hadoop - Hive 정리
Hive Hive는 hadoop ecosystem에서 데이터를 모델링하고 프로세싱 하는 경우 가장 많이 사용하는 data warehouse solution이다.

Hadoop - MapReduce
Hadoop - MapReduce MapReduce는 대용량의 데이터를 분산 컴퓨팅 환경에서 병렬 처리하여 속도를 높이도록 제작된 데이터 처리 모델이다. 간단한 단위작업을 반복하여 처리할 때 사용한다. 큰 데이터를 특정 크기의 block으로 나누고 각 block에 대해
(2) Hadoop - HDFS 기타기능 정리
HDFS Federation namenode는 파일 정보 메타데이터를 메모리에서 관리한다. 파일이 많아지면 메모리 사용량이 늘어나게 되고, 메모리 관리가 문제가 되고 이를 해결하기 위해 hadoop v2부터 HDFS federation을 지원한다. HDFS feder

(1) Hadoop - HDFS 아키텍쳐 정리
HDFS는 Hadoop Distributed File System의 약자이다.배치처리를 위해 설계되었기에 빠른 데이터 응답시간이 필요한 작업에는 적합하지 않다.그리고 namenode가 단일 실패 지점(SPOF)이 되기 때문에 namenode 관리가 중요하다.블록 단위

Hadoop ecosystem이란?
hadoop ecosystem은 hadoop framework를 이루고 있는 다양한 project들의 모임을 의미한다.분산 메시징 시스템으로 데이터 파이프라인 구축 시 주로 사용대용량 실시간 로그처리에 특화되어 있음.데이터를 안전하게 전달하는 것이 주 목적.fault-
Kafka란?
Kafka - 수집기술 링크드인에서 개발한 분산 메시징 시스템. 대용량 실시간 로그 처리에 특화되어 있다. Fast: 수 천개의 데이터로부터 초당 수백 MB의 데이터를 입력 받아도 안정적으로 처리가능 Scalable: 메시지를 파티션으로 분리하여 분산 저
Spark API
Spark API RDD RDD = Resilient Distributed Datasets Resilient = 회복력 있는 = 데이터 처리 과정에서 문제 발생- 해도 스스로 복구할 수 있음을 의미 RDD는 파티션 단위로 나뉘고, 여러 머신에서 파티션들을 분산처리하므

Apache Spark란?
Apache Spark 빅데이터 처리를 위한 오픈소스 병렬분산처리 플랫폼 클라우드의 Apache Hadoop, Apache Mesos, Kubernetes에서 자체적으로 실행될 수 있다. 아키텍쳐 spark application (= spark cluster) 실제

Spark Basic Operations
Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User
Bigdata platform이란?
SNS, 로그, 문서 등 다양한 경로를 통해 수집한 여러가지 형태의 대용량 데이터를 이용하여 의사결정에 도움을 주는 지표를 분석하여 제공하는 것.Volume 데이터의 크기Variety 다양성(정형, 반정형, 비정형 등 다양한 형태의 데이터Velocity 생성 속도Val

빅데이터와 스파크
Big + data (큰) + 데이터빅데이터를 어떻게 하면 학문적으로 정의 할 수 있을까?스스로 정의 해보자!3V: Volume(규모), Variery(다양성), Velocity(속도)5V: 3v + Veracity(진실성), Value(가치)7V: Validity(정

building my data warehouse with Airflow on GCP.
etl pipeline을 구글 클라우드 환경에서 구축하기 위해 준비해야할 것들 google colud cli 환경 airflow google cloud 계정 전체적인 아키텍쳐 화살표 방향은 신경쓰지 말아주세요! 왼쪽에서 오른쪽으로 흐름만 보면 됩니당! 1. 데이터

POSCO AI BigData Academy 17th
현재 2월부터 17기 연수생으로 선발되어 인공지능, 빅데이터 교육을 수료중이다작년 말에 이전 기수 선배님(?)의 벨로그를 통해 이 프로그램을 알게 되었다비밀유지 서약서 때문에 자세한 내용은 외부 유출 금지다그래서 내가 공부하면서 얻어낸 산출물 정도만 복습할 겸 정리해보

DASK #2 | array, df, Xarray
1. DASK arrays 1-1) NUMPY vs DASK Arrays numpy array와 사용 방법이 약간 차이나지만 비슷함 dask array는 chunk size를 확실하게 지정해 주어야 함 dask array를 compute하면 numpy array로
DASK #1 | Intro
컴퓨팅 리소스를 최대한 활용하려면 동시다발적으로 여러 코어를 사용해야 함스크립트의 단계(처리해야 하는 작업)가 독립적인 경우 둘 이상의 thread로 분리하여 병렬로 실행 가능Multi-thread 사용의 대안은 Parallel ProcessingParallel Pro