10. 데이터 정리 - Tableau Prep Builder

ofohj·2023년 2월 17일
0
post-thumbnail


오늘은 새로운 태블로 환경에서 작업한다. 오늘이 마지막 수업인데 새로운걸 깔아버렷다 조게 뭘까~

오늘은 데이터 정리에 대해 배울 것이다.
예를 들어, 4개월치 매출데이터와 지역별 관리자, 반품 데이터를 하나로 묶어서 데이터를 관리할 수 있다.

묶는 방법은 크게 두 가지가 있다.

  • union
  • join

union

  • 같은 구조(동일한 필드(열) 개수, 이름, 데이터 타입)를 가진 집합(테이블)들을 한개로 합치는 것
  • 위아래로 병합

join

  • 기준이 되는 필드에 따라 두 개 이상의 집합을 연결 또는 결합하는 것
  • 좌우로 병합

실습

1. Tableau Prep 실행

prep을 실행하면 아래와 같이 창이 뜬다.

2. 데이터 연결

어두운 파란색 탭쪽으로 원하는 데이터(ex.엑셀시트)를 드래그 앤 드랍하여 연결한다.

3. 데이터 유니온

데이터들 끼리 union하기 위하여 와일드카드를 활용한다.
입력 - 여러파일 - 와일드카드 유니온을 선택한다.

일치 패턴이 원래 영업 실적 2015년.xlsx로 되어있었을 것이다.
이를 영업 실적 *년.xlsx로 수정한다.

근데 안된다.

다른 방법을 써야겠다!
드래그 앤 드랍 하는것이다.

처음 두 데이터는 유니온을, 다음 데이터부터는 유니온에 추가를 해준다.

🔻실행 결과

4개년 데이터가 생겼다!!

4. 지역별 관리자 연결

영업 실적 외에 반품과 지역별 관리자라는 데이터를 불러와주었다.
우선 지역별 관리자를 4개년 데이터(유니온1)에 먼저 연결시켜줄 것이다.
관리자 데이터와 4개년 데이터의 필드가 일치하지 않기 때문에 조인시켜준다.

🔻실행 결과

조인을 클릭해 세부 사항을 살펴보면 아래와 같이 서울경기지역이 빨간글씨로 표시되는 것을 볼 수 있다. 이는 서울경기에 해당하는 데이터가 앞서 조인한 두 데이터 중 하나에만 포함되어 있기 때문에 삭제되었다는 의미이다.

5. 단계 정리

조인된 데이터들 사이에 어떤 일이 생겼는지 알아보기 위해 정리 단계를 클릭한다.

앞서 확인한 서울경기 데이터가 잘 삭제되었는지 보기 위해 지역을 검색해 서울경기를 클릭한다.

검색어를 지우면 다시 첫 페이지로 돌아갈 수 있다.
잘 삭제되었다면, 서울경기에 해당하는 파란 부분이 없어야 한다.
하지만 아래 표를 보면 2018년도에 서울경기 데이터가 포함됨을 알 수 있다.

6. 잘못된 데이터 정리

다시 지역을 검색해 서울경기수도권을 동시에 클릭해 그룹화한다.

그리고 다시 조인1로 가면 아래와 같이 빨간 부분이 사라지고 제대로 조인이 된 것을 확인할 수 있다.

7. 반품 데이터 연결

이번엔 반품 데이터를 조인1에 조인시켜준다.
실행 결과, 아래와 같이 나오는데 조인1조인 결과 요약을 통해 삭제된 데이터가 너무 많은 것을 알 수 있다.

이 경우에는 조인 방법을 바꿔주어야 한다.

조인3조인 유형을 inner에서 left로 변경시킨다. join1의 왼쪽 집합 부분만 클릭해주면 된다.

조인 결과 요약에 조인 결과가 11,000건이 되었다면 성공한 것이다.

8. 단계 정리

앞서 조인을 했을 때와 마찬가지로, 조인3 오른쪽의 (+) 버튼을 눌러 정리단계를 클릭한다.

아래에 나온 세부 사항들을 옆으로 쭉 넘겨보면 결합하면서 추가적으로 생긴 필드인 지역-1과 주문번호-1을 볼 수 있다. 이를 제거해준다.

9. 출력

이제 정리가 끝났다!
출력을 눌러준다.

아래와 같이 다양한 출력 형식이 있다. 나는 내 컴퓨터에 파일 형식으로 저장하고싶어 파일을 선택하고 흐름실행을 클릭했다.

완료!!! 데이터 정리가 성공적으로 끝났다!

소감

2주간의 태블로 강의 & 실습이 끝났다. 자랑은아니지만 나는 작심삼일인간이다. 그리고 이건 자랑인데 그런 내가~태블로를 단 하루도 미루지 않고 10일동안 매일매일 미션완료햇다!! 강의도 다 듣고! 실습하고! 정리하면서 과제까지!!

최고다!

에이블하면서 데이터 시각화 배우는 기간이랑 이 태블로 기간이 겹쳐서 더 도움이 됐다. 예습복습 하는느낌? 물론 아직 어려운게 잔뜩이다. 이 프로그램을 알려주신 꼬북님께 감사와 하트를~드리며~~ matplotlib이나 seaborn에서 만들 수 있는 시각화보다 더 다채로운 시각화툴을 알 수 있어서 좋!았!다!

0개의 댓글