# EMR

3개의 포스트
post-thumbnail

aws Lambda 및 emr 초기 환경 구축 관련 정리글

AWS Lambda레이어 → AWS Lambda가 실행될 때 Lambda가 내장하고 있는 파이썬 모듈을 제외한 나머지 외부 모듈들은 따로 설치를 해야한다.Lambda는 amazon linux 기반의 리눅스에서 작동하므로 파이썬 모듈들을 amazon linux에 맞게 설

2022년 5월 2일
·
0개의 댓글

spark: jdbc parallelism

EMR Zeppelin에서 Spark를 실행해서 jdbc를 통해 데이터베이스(Redshift) 데이터를 병렬로 가지고 오는 방법Spark에서 제공하는 partitionColumn, lowerBound, upperBound, numPartitions 파라미터를 사용해서

2022년 3월 22일
·
0개의 댓글
post-thumbnail

비구조화된 데이터 분석

로그데이터 분석, 하둡 활용 AWS에서 제공하는 서비스를 활용하면 온프레미스에서 다루기 어려웠던 분산 처리 기술인 하둡도 손쉽게 사용할 수 있다. 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨

2021년 12월 4일
·
0개의 댓글