tree map은 2개의 차원, 2개의 측정 값 까지 가능함
- 사용하고자 하는 엑셀 파일을 tableau에 연결
- 사용하고자 하는 시트를 캔버스로 이동 : 주문 시트 사용(from 절 / SQL)
- 테이블 : 차원, 테이블 밑에 있는 것 : 측정 값
- 차원 : 분류를 위한 것, 측정값 : 진짜 그냥 측정 값임
- 마크 선반에서 유형
사각형
으로 변경- 주문 날짜를 열, 행 두 곳에 다 배치
- 열 선반에 배치한 주문 날짜를 불 연속형의 요일로 바꾸기
- 행 선반에 배치한 주문 날짜를 불 연속형의 월로 바꾸기
- 출력할 측정 값(매출액)을 Heat Map으로 표현하기 위해서, 마크 선반의 색상으로 배치
- 정확한 값을 알고자 하는 경우에는 마크 선반의 레이블에도 배치를 해주면 값을 알 수 있다.
- Tableau에서는 시트 간에 동일한 차원이 존재하는 경우에 조인이 가능
- 동일한 차원이 없더라도 강제로 조인을 할 수 있습니다.
- Union(여러 개의 구조가 같은 시트를 합치는 것)도 가능
- Join 과 Union은 다르다는 것을 알아두자.- 기준이 되는 시트를 먼저 배치하고, 다른 시트를 배치할 때 시트 위에 배치하면 Union이고, 오른쪽이나 왼쪽에 배치하면 Join입니다.
- Tableau의 특징을 여기서 알 수 있습니다. DB에서 먼저 Join을 할 필요가 없다는 점입니다. 굳이 처음부터 Join된 데이터를 쓸 필요가 없습니다.- Join을 할 때는 공통된 컬럼을 알아야 합니다.
- DB에서 JOIN을 할 때는 순서도 중요합니다.
from emp, dept where emp.deptno=dept.deptno from emp, dept where dept.deptno=emp.deptno
- 결과는 똑같지만 과정이 매우 다르며, 속도도 다릅니다.
전부 다 찾을지 아니면 한개 찾고 바로 끝내버릴지
- Car_Order, Car_Member, Car_OrderDetail, Car_product, Car_store 순서로 연결
- Order에는 Member, OrderDetail, Store 조인
- OrderDetail에 Product 연결
- 연결된 데이터 원본에 필터를 적용
- 데이터를 불러오는 단계에서 필터링이 되기 때문에 대용량 데이터를 불러올 때 활용합니다.
- 데이터 원본에서 Type에서 truck 제외
- 데이터 원본 화면의 오른쪽 상단의 필터의 추가를 클릭해 원하는 데이터만 추출
- 매출액은 존재하지 않는 측정값이다.
- 존재하지 않는 측정값은 계산된 필드를 이용해서 생성함
- 매출액은Price*Quantity
로 생성
- 계산된 필드 - 파생 속성(Derived Attribute)
- 이러한 속성을 자주 사용하는 경우에는 컬럼으로 추가하는 것이 좋다.
- 이 기능은 자주 활용하는 기능인데, 대부분의 경우 RDBMS에서 데이터를 가져와서 사용하는데, RDBMS에서는 근본적으로 데이터의 중복이나 계산식으로 나오는 파생 컬럼을 만들지 않습니다.
- 행과 열에 Type과 매출액 필드를 설정
- Type을 마크 선반의 색상으로 설정해 Type별로 색상을 다르게 보이도록 설정
- 매출액을 마크 선반의 레이블로 설정해서 매출액 값이 Canvas에 출력되도록 설정
- 애니메이션을 위해서 페이지에 Order Date를 드래그해서 설정하고 데이터의 형식을
yyyy년 m월
로 설정
- 행과 열에 Model과 매출액을 배치
- 매출액을 마크 카드의 색상과 레이블에 배치
- 툴 바의 정렬 아이콘을 이용해서 내림차순으로 설정
- Model을 선택하고 필터에 배치
- 일반에서는 특정한 값을 포함시키거나 제거 가능
- 와일드카드에서는 특정 문자로 시작하거나 종료되는 그리고 포함한과 정확히 일치를 설정할 수 있습니다.
- 조건에서는 직접 조건을 설정합니다.
- 상위에서는 상위 또는 하위에서 몇 개를 추출할 수 있습니다.
- 필터를 만들 때, 측정 값을 설정하게 된다면, 범위 / 최대 / 최소 / 특수 총 4가지 형태로 조건을 설정합니다.
- 값에 별명을 붙이는 것
- 차원 데이터에서 값 대신에 특별한 문자열이나 값을 사용하는 것
- 문자열이 열거형(특정 값 만으로 구성된 데이터로, 범주형이라고도 함 -factor)인 경우 주로 이용합니다.
- 숫자로 된 데이터에 문자열을 표시하거나 영문이나 다른 언어로 만들어진 데이터에 한글 별명을 주는 경우가 많습니다.
- DB에서는 기본적으로 열거형을 사용하지 않기 때문에, 열거형의 경우에는 일반 문자열이나 정수로 표현합니다
- 이런 경우에는 알아보기가 어렵기 때문에 별칭을 사용합니다.
- Gender field에 별칭을 사용해보자.
↓
- 함수를 사용해서 필드를 계산하는 것
- 생성할 때는, 사이드바의 빈 영역에서 우클릭 [계산된 필드 만들기] 혹은 사이드바 상단 추가메뉴에서도 생성 가능함
- Tableau가 제공하는 함수와
IF ~ ELSIF ~ ELSE END
사용이 가능함
- 2개의 필드 생성
- 국가 브랜드 : Brand값이 chevolet이면 미국, bmw이면 독일, peugeot이면 프랑스, 나머지는 일본
IF [Brand] = 'chevrolet' THEN '미국' ELSEIF [Brand]='bmw' THEN '독일' ELSEIF [Brand]='peugeot' THEN '프랑스' ELSE '일본' END
- 평균 가격 : price 필드의 평균
AVG([Price])
- [brand]필드 만들기 그룹
- 그룹화하고자하는 하옴긍ㄹ 선택하고 그룹을 누르고 그룹 명을 입력
↓
- model 클릭 만들기 집합
- 이름은 자유롭게
- 상위 10개만 뽑자(조건)
- 매출액을 행에, 평균 가격을 열에 배치 (두 숫자가 들어가면 scatter)
- brand, model을 마크카드 세부정보에 배치
- 분산형(Scatter) 차트에서 그룹화하고 싶은 데이터만 드래그해서 선택 후, 나오는 메뉴에서 [그룹화] 선택하고 그룹 이름 입력하기
- Age 클릭 만들기 구간차원 선택 후, 이름 입력하고 각 구간의 크기를 설정하기
- 만들어진 필드를 행으로 배치하고 확인
- Age를 마크선반 텍스트에 배치하고 측정값을 합계가 아닌 평균으로 설정하고 봐보자.
- 원래 python으로 했다면 구간을 하나하나 나눠야 했었을 것이다.
- 범위설정이 되고, 구간의 개수 설정도 가능하다.
- 범위를 볼 때, 데이터를 확인하고 설정해야 한다.
- order date를 행에 배치 불연속형 월단위로 설정
- 매출액을 마크카드 텍스트에 배치하여 월단위 매출액을 표시
- 매개변수를 활용하기 위한 계산된 필드 생성 - 매개변수 (Order Date)
IF [Order Date] >=[시작일] AND [Order Date] <=[종료일] THEN 'Y' ELSE 'N' END
- 행에 [매개변수 (Order Date)] 필드에 배치
- 매개변수를 화면에 표시하기
- 매개변수를 선택하고 표시하기
- 계산된 필드(매개변수(Order Date))를 필터로 드래그 하고 체크 박스에서 Y 선택
매개변수를 적절히 활용하면,
동적으로 뷰를 변경하면서 데이터를 확인하는 것이 가능합니다.
매개변수, 계산된 필드는 굉장히 많이 만들고 사용합니다. 매우 중요합니다.
서울시 양천구 서울시 서초구 서울시 강남구
- 분할은 Tableau가 서울시 / ~~구로 나눈다.
- 사용자 지정 분할은 "공백"을 기준으로 나누는 것
- 자동 분할
- 원하는 필드 변환 분할
- Tableau가 패턴을 찾아 분할을 해준다.
- 직접 분할
- 원하는 필드 변환 사용자 지정 분할 을 선택하고 구분 기호를 설정
Split 은 기호가 정규 표현식인지 아니면 문자열인지 확인을 하고 한가지로 분할이 가능한지, 아니면 여러 가지 설정이 가능한지 그리고 분할할 개수를 설정할 수 있는지 확인
indexOf 나 lastIndexOf는 시작할 위치를 설정할 수 있는지 확인
- 2개의 필드를 선택하고 분할 2의 추가 메뉴 계층 계층만들기
![]()
- 확인을 해보고자 한다면 만들어진 계층을 행으로 드래그 하고 + 버튼을 클릭해서 잘 만들어졌는지 확인해보기
- Store Addr - 분할1 을 선택 지리적 역할 시/도
- Store Addr - 분할2 를 선택 지리적 역할 시/군/구
- 지구본 모양이다
- Store Addr 계층을 마크 카드 색상 및 세부 정보에 배치
- 이후 표현 방법에서 지도를 선택하면 나온다.
탐색적 시각화를 할 때는 Python 보단 Tableau 로 하는 것이 효율적이다.
- Model 필드를 행으로 배치하자.
- Model 차원을 , Model 측정값으로 바꿀 수 있다.
- 측정값(Count)를 고르게 된다면, Count를 반환합니다.(데이터의 개수)
- 물론 사이드 바에서도 바꾸기도 가능하지만, 다시 되돌려 놓는 것을 잊지 말자.
- 예시
- 1. 대졸 이상
- 2. 대졸
- 3. 고졸
- 4. 고졸 미만- 1, 2, 3, 4로 저장하는 편이다.
- 매출액과 평균 가격을 행과 열에 배치
- 전체 매출 합계이기에 점은 1개만 생성
- 분류를 할 때는 마크 카드의 세부정보를 이용한다.- 마크 카드의 세부 정보에 Brand와 Model 필드를 배치
- 뷰 영역에서 우클릭 서식 실행해서 서식 변경 워크시트 선택하고 수정을 하면 X축과 Y축 모두 영향을 받고, 상단 필드에서 특정 필드를 선택하면 선택된 필드만 수정됩니다.
- 선형 / 로그 / 지수 / 거듭 제곱 / 다항식을 활용해서 측정 값들의 추세를 표시할 수 있다.
- 뷰에서 우클릭 추세선 추세선 표시
- 추세선 우클릭 설명 들어가면 설명도 나오고, 신뢰구간도 확인 가능
신뢰구간(Confidence Interval)
- 모수가 어느 벙위 안에 있는 지를 확률적으로 보여주는 방법 중의 하나
- 신뢰수준을 설정해 해당 구간 안에 있을 확률이 95%,99%정도 된다고 설명
선형 / 로그 / 지수 / 거듭 제곱 / 다항식 형태가 있는 이유는 기본은 선형 회귀인데, 선형 회귀는 회귀를 잘 설명하지 못하는 경우가 있어서 이런 경우에는 거듭제곱이나 다항식 등을 이용해서 회귀를 설명합니다.
- 추세선에 마우스를 올려보면 다음과 같은 정보가 나옵니다.
- 1. 회귀식
- 2. r-squared(R2 Score)
- 3. p-value- R2 Score는 결정 계수이며, 회귀 모델에서 독립 변수가 종속변수를 얼마나 잘 설명하는가를 보여주는 지표 입니다.
- 이 값이 1에 가까울 수록 독립 변수들이 종속 변수를 잘 설명한다고 합니다.- 어떤 회귀식을 사용해야 할 지 결정이 잘 안되는 경우에는 p-value(유의 확률)가 작은 값을 선택합니다.
- p-value는 우리말로는 유의확률이라 번역됩니다.
- 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률입니다.
- 이 수치는 작을 수록 결과를 신뢰할 만 합니다.
- 뷰에 텍스트를 출력하는 것으로, 마크 / 지점 / 영역을 활용
- 차트 영역 안에서 우클릭 주석 추가 선택 후 설정
- 기본적으로 색상 / 크기 / 텍스트 / 세부 정보 / 도구 설명으로 되어있지만, 마크 유형에 따라 메뉴는 유동적입니다.
- 행과 열에 매출액 및 Order Date 배치
- Order Date를 선택하고 추가 메뉴를 통해 범위와 연속성을 설정
- 마크 카드의 세부 정보에 평균 가격 필드를 배치해보자
- 마우스를 올리면 볼 수 있다.
- 마크 카드의 도구 설명을 누르면 마우스를 올렸을 때, 확인하고 싶은 정보들을 추가로 편집할 수 있다.
- 선택한 필드 값들을 기준으로 해서 적합한 뷰를 추천
- 빨간색 테두리로 되어 있는 것이 권장입니다.
- 행 과 열에 매출액과 Order Date를 배치하자.
- 상수 라인은 축마다 그어줄 수 있다.
- 분석 탭에서 상수 라인을 뷰로 드래그 한 뒤, 상수 라인을 설정할 항목을 결정하고 값과 서식을 설정해주자.
- 분석 탭에서 평균 라인을 뷰로 드래그 한 뒤, 라인을 설정할 항목을 결정
- 행과 열에 매출액 및 Store Addr 필드 배치
- 분석 탭에서 사분위수 및 중앙값을 시트에 드래그 앤 드롭해주기
- 평균라인도 그렸습니다. 이때, 평균과 중앙값이 같았으면, 정규분포이다.
- 테이블의 평균은 매출액의 평균입니다.
- 패널의 평균은 Order Date가 년도 별이라면, 년도 별 평균입니다.
- 셀의 평균은 년도 별 브랜드별 평균입니다.
- 테이블 평균
- 패널 평균
- 셀 평균
- 사분위수와 중앙값 그리고 수염 정보가 박스 형태로 뷰에 표시되도록 하는 기능
- 수염은
3사분위수*1.5 그리고 1사분위수*1.5
에 해당하하는 부분입니다.
- Outlier를 판단하는 가장 보편적인 방법으로, 수염 외부에 있는 데이터를 Outlier로 판정합니다.
- 실제 판단은 분석가의 몫입니다.- 얘가 일련번호 같은 것인데, 숫자로 판단하고 있다. 이럴 때 변환을 해줘야 합니다.
- 차원, 불 연속형으로 변경해줍니다.
- 현재, 밑에가 너무 촘촘히 있어서 위에 있는 데이터를 outlier로 판단한다. 이때는 분석가가 tableau에게 판단을 맡기는 것이 아닌 개입을 해야 합니다.
- 중앙 부분이 두꺼운 경우(데이터가 많은 경우) 중앙값과 별 차이가 없음에도 불구하고 Outlier가 될 수 있으므로, 이상치 제거를 할 때는 분포를 확인해서 라이브러리의 도움을 받는 것이 나을지, 아니면 분석가가 개입을 해야 하는지 고민해야 한다.
- 행과 열에 Brand 와 Model 그리고 Gender 필드를 배치하자.
- 매출액 필드를 마크 카드의 텍스트에 배치
- 분석 탭에서 총계를 시트에 배치하기
- 소계, 열 총합계, 행 총합계 등을 출력할 수 있다.
- 최상단의 [분석] 메뉴의 총계를 선택하면 표시위치나 계산 값 변경이 가능함
- 행과 열에 Quantity와 Order Date 배치
- 마크 카드에 원하는 것 배치
- 분석 탭에서 95% CI의 평균 과 중앙값을 뷰에 추가
- 이번엔 중앙값이 더 밑에 가있다.
- 2개의 측정 값의 상호 관련성을 선으로 표시
- 측정값이 항상 2개가 있어야 합니다.
- 날짜 필드를 활용하여 측정한 필드의 예측을 표시
- 행에 Gender와 매출액 배치
- 열에 Order Date 배치
- 색상 Gender적용, 레이블은 매출액
- 불연속형은 예측 안될것이다.
- 마크 카드의 예측 표시기 없애면 선 연결
- 하지만 너비가 너무 넓은 것을 확인할 수 있다.
- 데이터의 기간이 너무 짧습니다.- 예측 옵션도 설정할 수 있다.
- Tableau가 예측에 사용하는 방법은 지수 평활법이다.
- 시계열 예측을 할 때, 주가 예측은 과거의 데이터 비중을 낮추고 최근의 데이터 비중을 높여서 예측을 합니다.
- 가중치를 설정해서 예측을 합니다.
-(1-가중치)데이터1+(1-가중치^2)데이터2+...+(1-가중치^N)데이터N
,가중치<1
- 단순 선형회귀가 맞는 경우는 진짜 거의 1도 없습니다.
예측은 이어지는 연속형(다음이 있는 경우)만 가능합니다.
- 행과 열에 매출액 및 평균 가격을 배치
- 마크 카드의 세부 정보에 Model 필드 배치
- 분석 탭에서 클러스터를 뷰로 배치
- 자동으로도 할 수 있고, 수동으로 그룹 수를 바꿀 수 있습니다.
- 클러스터는 측정값이 아닌, 차원으로 컬럼을 만들 수 있습니다.
- 행과 열에 매출액 및 Model(클러스터) 필드를 배치