태블로 이해하기

InSung-Na·2023년 3월 11일
0

Part 08. Tableau

목록 보기
1/11
post-thumbnail

해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다

1. Digital Transformation

데이터 리터러시

  • 데이터를 읽고 그 안에 숨겨진 의미를 파악하는 데이터 해독능력
  • 원래 리터러시(literacy)는 글을 읽고 해독하는 능력을 뜻한다.

매순간 수많은 데이터가 쏟아지고 있는 상황에서 데이터에 담겨있는 의미를 빨리 파악하고 목적에 맞게 활용하는 능력은 빅데이터 시대의 필수 생존요건으로 간주된다.
출처 : [네이버 지식백과] 데이터 리터러시 [data literacy] (한경 경제용어사전)

데이터 시각화

  • 데이터에 색상과 모양 그리고 사람들의 시선을 끌 수 있는 요소를 배치해 데이터를 효과적이고 직관적으로 표현하는 것

효과적인 시각화

  • 전달하고자 하는 메시지를 정하고 불필요한 부분은 생략

데이터 시각화 예시

  • 단순 수치 -> 직관적인 시각화
  • 숫자나 글자의 경우, 해석과정을 거침
  • 차트&그림의 경우, 있는 그대로를 받아들임

2. Tableau

Business Intelligence(BI)

  • 기업에서 데이터를 수집, 정리, 분석하고 활용하여 효율적인 의사 결정을 하도록 하는 툴

Tableau 장점

  • "모든 사람들이 데이터를 보고 쉽게 바르게 이해할 수 있도록 돕는다"는 목적으로 개발됨

  • 유연한 데이터연결

  • 직관적인 Drag & Drop 인터페이스

  • 다양한 형태의 시각화

  • 컴퓨터, 태블릿, 스마트폰 등의 여러기기에서 사용가능(*디지털 노마드 최적화)

*디지털 노마드 : 시공간에 제약없이 일하는 사람

Tableau 단점

  • 유료

태블로를 사용하는 회사들

  • 대기업 외에도 수많은 기업들이 태블로를 사용

3. Tableau 설치

(1) https://www.tableau.com/ko-kr/academic/students (학생용 Tableau)로 이동

(2) "무료로 TABLEAU 받기" 클릭

(3) 양식에 맞추어 작성하고 "VERIFY STUDENT STATUS" 클릭

  • ※ 학생용은 학생임을 증명하기 위한 자료를 필요로 함(학생증, 재학증명서)

(4) 이후 재학증명서 및 학생증 사진을 업로드

  • 생략

(5) 이후 받은 메일로 들어가서 Tableau Desktop를 다운받고 라이센스 키를 등록한다.

  • ※학생용은 1년마다 라이센스를 재등록해야 한다.

4. 태블로 이해하기

4-1. 데이터 연결 및 탐색

태블로는 아래의 데이터들을 연결할 수 있다.

연습용으로 로컬내의 엑셀을 연결해보자

(1) Microsoft Excel 클릭

(2) 준비된 파일 클릭해서 가져오기 or 드래그해서 가져오기

(3) 좌측 하단의 시트에서 "Orders"를 드래그해서 가져오면 다음과 같이 데이터를 보여준다.


4-2. 간단한 데이터 전처리

데이터 통합 및 결합

Union(데이터통합)

  • 한 테이블을 다른 테이블에 통합하기
  • ※데이터구조가 맞아야 통합 가능

(1) Orders_2018을 드래그 해서 Orders 밑에 가져가면 "유니온"이라는 표기가 나온다.

(2) 통합 결과 확인


Join(데이터 결합)

(1) 드래그해서 베이스 테이블 가져오기

(2) 더블 클릭 or 드래그로 다른 테이블 가져오기

  • 자동으로 inner join으로 선택됨, 이를 변경가능

(3) 생성된 데이터는 아래의 필드에서 확인가능

  • Orders의 기존 테이블의 우측에 Return관련 열 2개가 추가로 생성되었다.(Orders 테이블은 Profit까지 존재)

Physical& Logical Table

(1)Physical Table

  • 첫 테이블을 등록하고 논리적 테이블 상태(기본상태)에서 더블클릭하면 물리적 테이블 세팅이 열리게 된다.

  • 해당 상태에서 다른 테이블을 드래그해서 옆으로 가져오면 Join이 되는데 이 때 테이블은 물리적으로 결합된다.

(2)Logical Table

  • 논리적 테이블에서 드래그해서 가져오면 논리적으로 연결된다.

  • 이 때 각 테이블은 결합되어 있지 않다. 각자의 테이블에 데이터를 가지고 있을 뿐이다.

Orders 테이블

Returns 테이블

(3) 차이점 정리


출처 : Tableau 공식 사이트


데이터 편집

(1) 컬럼 명 변경

  • 테이블의 컬럼을 더블클릭하고 바꾸기. 필드테이블에서 수정 전&후 확인 가능.

(2) 데이터 형변환(TypeCasting)

  • 컬럼명 위의 아이콘을 클릭해서 데이터 형변환을 할 수 있다.

(3) 필터링

  • 1) 우측 상단의 필터에서 "추가" 선택

  • 2) 한번더 "추가..." 선택

  • 3) 필드를 선택 후 확인

  • 4) 원하는 값을 선택하고 확인

  • 5) 필터링 확인

    • 필터링 적용 전 : 8001개 행

    • 필터링 적용 후 : 1700개 행


(4) 필터링 제외

  • 6) step4에서 "제외" 클릭

  • 7) 필터링 확인

    • 필터링 확인하기 : 8001(원본) - 1700(조건) = 6301개 행

(5) 다른 조건의 필터링(날짜, 수치)

  • 날짜

  • 수치


4-3. 태블로 이해하기

인터페이스

필드 : 시트의 좌측에는 가져온 데이터의 목록

차원 : 필드의 상단

측정값 : 필드의 하단


해당 필드에서 데이터를 더블클릭하면 자동으로 열과 행이 지정되고 데이터시각화가 진행된다.

페이지, 필터, 마크에서 여러 설정을 할 수 있는데, 데이터시각화는 마크 카드에서 주로 이루어진다.


마크 카드 영역의 다양한 시각화 종류들, 원을 선택했을 때 보여지는 시각화


태블로의 하단에서 원본으로 이동, 시트 및 대시보드 이동 및 생성을 할 수 있다.


차원과 측정값

차원

  • 정성적 값(예: 이름, 날짜, 지리적 데이터 등)을 포함합니다. 차원을 사용하여 데이터의 세부 정보를 분류하고 나누고 표시할 수 있습니다. 차원은 뷰의 세부 수준에 영향을 미칩니다.

측정값

  • 측정할 수 있는 정량적 수치 값을 포함합니다. 측정값을 집계할 수 있습니다. 측정값을 뷰에 끌어 놓으면 Tableau가 (기본적으로) 해당 측정값에 집계를 적용합니다.

출처 : Tableau 공식 사이트

해당 필드의 상단은 차원, 하단은 측정값이 위치해 있다.

여기서 차원에 "Row ID"는 수치데이터임에도 불구하고 차원에 위치해 있는데 그 이유는 해당 데이터는 1씩 증가하는 데이터이기 때문에 Tableau가 차원으로 분류한 것이다.

데이터를 Tableau에 연결하게 되면 자동으로 차원인지 측정값인지 구분하게 된다.

물론 오류가 발생할 수 있다. 차원으로 의도했지만 측정값에 위치해 있거나 그 반대인 경우, 드래그해서 해당위치로 옮겨주면 된다.


데이터시트

  • 시트에는 좌측 행, 상단에 열, 중앙에 데이터 필드가 있다.

  • 데이터를 더블클릭하거나 드래그를 해서 행 필드 또는 행 컬럼에 갖다놓으면 그래프가 생성된다.

  • 데이터 삭제는 클릭하고 delete를 누르거나, 드래그해서 빼기, 클릭해서 메뉴에서 "제거"를 클릭하면 된다.

  • 데이터를 드래그 해서 열 필드 또는 열 컬럼에 갖다놓으면 다음과 같이 생성된다.

데이터필드

  • 데이터를 드래그해서 중앙시트에 갖다놓으면 다음과 같이 생성된다.

표 시각화

  • 행에 있는 테이블 앞의 +를 클릭하면 하위 테이블이 생성된다.

  • 아래와 같이 행 또는 열을 지정하고 측정값을 적용하면 다음과 같이 표가 생성된다.

차원과 측정값 변환

  • 측정값의 "Quantity"를 차원으로 바꾸면 해당 칼럼은 한번에 몇개를 구매하는지에 대한 차원으로 변경되게 된다.

  • 차원의 "Customer ID"를 측정값으로 바꾸면 ID가 아닌 사람 수를 의미하게 된다.


변경된 두 데이터(Customer ID 측정값, Quantity 차원)를 시각화하면 다음과 같다.

이것을 보면 한번에 2개의 제품을 구매하는 사람이 가장 많다는 것을 알 수 있다.


변경전 데이터로 시각화하면 각 사용자의 구매량을 알 수 있다.

ID는 고유값으로 오는 경우가 많으므로 차원으로 인식된다. 따라서 상황에 맞게 속성을 변경할 수 있어야 한다.


연속형과 불연속형

불연속형(차원) : 파란색
연속형(측정값) : 초록색


날짜(불연속형 -> 연속형)

  1. 열에 주문일자를, 행에 합계를 넣는다.

  2. 컨트롤 드래그로 주문일자를 필터에 복사해서 넣고 "년" -> "2020"을 선택한다.

  3. 이 상태에서 주문일자 앞의 + 를 눌러서 하위영역(분기)을 생성한다.

  4. 마지막까지 하위영역을 생성해서 일별로 표기하면 다음과 같다. 하지만 의도했던 차트가 아니다.

  5. 작업한 시트의 우클릭해서 "복제"를 선택해서 시트를 생성한다.

  6. 열을 초기 주문일자로 되돌리고 메뉴에서 하단의 일을 선택한다. (상단의 년,분기,월,일은 불연속형이고 하단은 연속형이다)

  7. 연속형 결과 확인


색상설정

  • 새로운 시트에 열 : 합계, 행 : Sub-Category, 내림차순이 되도록 한다.

불연속형 데이터 색상

  • Sub-Category를 ctrl 드래그에서 마크 카드의 색상에 드롭하면 다음과 같이 색상이 부여된다.

  • 불연속형인 데이터를 받은 경우 여러색상을 사용한다.

연속형 데이터 색상

  • Sales를 ctrl 드래그에서 마크 카드의 색상에 드롭하면 다음과 같이 색상이 부여된다.

  • 연속형인 데이터를 받은 경우 단일색상의 진한정도(그라데이션)를 사용한다.

0개의 댓글