스테이징 영역(Staging Area) 이란?
스테이징 영역이란?
- 스테이징 영역은 데이터가 변환되기 전에 원시/처리되지 않은 데이터가 있는 영역을 말한다. 스테이징 영역은 데이터베이스의 테이블, 클라우드 스토리지 시스템의 파일 등이 될 수 있다.
스테이징 영역이 필요한 이유는 무엇일까?
- 장점
- 소스 시스템의 데이터 변경을 스테이징 영역에 소스 데이터의 스냅샷 형태로 기록할 수 있다.
- 데이터 로드시 소스 시스템에 영향을 미치지 않는다.
- 서로 다른 시스템의 데이터를 결합해야 하는 경우 두 시스템의 데이터베이스가 물리적으로 다르다면 두 테이블을 결합하는 쿼리를 실행 할 수 없다.
- 데이터 변환 단계의 오류를 늦게 발견하여 3개월 간의 데이터를 다시 처리해야 할때 스테이징 영역의 데이터에 대해 올바른 논리로 백필을 실행할 수 있다.
- 단점
- 소스 시스템의 변경 사항이 데이터 웨어하우스에 적용되는데 필요한 시간이 지연될 수 있다.
- 스테이징 영역에 저장될 데이터의 추가 공간이 필요하다. 추가 공간이 필요하다는 것은 돈과 관련된 문제이기도 할 수 있다.
결론
- 스테이징 영역이 반드시 필요한건 아니지만 데이터 파이프라인을 구축할 때 고려해보는 것이 좋을 것 같다.
Reference
Staging area?
DWBI.org