[AWS] Glue? 글루? ETL 서비스? 그게뭐야

리미·2020년 10월 15일
1
post-thumbnail

자근 호기심으로 시작된다


AWS의 Security Groups을 보는데 Inbound rules에 모든 트래픽에 해당 Security Group(자기자신)을 넣어 놓은것을 보았다.
처음보는거라 왜 저렇게 했을까? 왠지 냄새가 난다. 내가 모르는 그 냄새가. 열심히 구글링을 해보았다.

self-referencing inbound rule for all tcp ports

정확히 저렇게 구글신이 자동완성해주었다. (갓구글)
보통의 경우 인바운드 정책에 자기자신을 바운딩 시키는 경우는 AWS Glue를 이용하기 위해서 라고한다.

그래서 AWS Glue가 뭐하는 시스템이야?

일단 글루를 설명하기 앞서서 간단한 용어 정리부터 해보겠다.

  • OLTP(온라인 트랙잭션 처리) : 온라인 사용자들이 DataBase에 대한 일괄 트랜잭션 처리를 의미한다. 빈번한 데이터의 select뿐만 아니라 insert, update, delete 발생으로 효과적인 데이터 갱신이 주요목표. 실시간으로 데이터가 변한다
  • OLAP(온라인 분석 처리) : 데이터를 기초로 하여 효과적으로 분석하고 조회하는 것이 주요 목표(select만), ETL분석 주기에 따라 데이터가 변한다.
  • ETL(Extract, Transform, Load) : 추출, 변환, 적재. 여기서는 OLTP에서 OLAP로 데이터를 이전하는 경우 거치는 단계라고 생각하면 될 것 같다.

결론

AWS 시스템을 예로 들어서 보자면,
이해를 위한 간단한 그림
OLTPAWS RDS, EC2, S3 이라고 생각하면되고, 데이터베이스는 AWS RDS뿐만아니라, EC2에도 만들수있고, S3도 가능하다고 하는데(사실 안써봐서 잘 모르겠다)
OLAPAWS Redshift,
여기서 데이터를 OLTP에서 OLAP로 넘어갈때 ETL(->AWS Athena) 서비스를 하는것이 AWS Glue나 Apache의 AirFlow라고 생각하면 된다.

profile
Python이 하고싶은데 자꾸 Flutter 시켜서 빡쳐서 만든 블로그

0개의 댓글