[TIL 36일자] 데브코스 데이터엔지니어링

·2023년 5월 29일
0

데브코스

목록 보기
34/55
post-thumbnail

📚 오늘 공부한 내용

👊 팀 프로젝트의 시작

1. 주제 선정 및 활용 기술 선정

  • 몇 가지 주제가 대두되었지만 공통적으로 나온 주제가 곧 다가오는 연휴에 맞추어 국내 여행 관련 대시 보드를 만들면 좋겠다는 의견이 주류를 이루었다.
  • 그 과정에서 사용할 API들을 찾았는데 TOUR API라고 해서 한국 관광 공사에서 제공하는 두 API를 사용하기로 하였다.
    - 국문 관광 정보 API지역별 관광지, 레저, 숙박 업소, 식당 등의 다양한 여행 시설에 대한 정보와 각 지역에서 진행하는 행사 정보 등을 담고 있었다. 이 부분을 통해 여행지를 선정할 때 관광 시설이 분포된 곳을 찾을 수 있지 않을까라는 생각에 선정하였다.
    - 빅데이터 API지역별 방문객 수를 알 수 있는 DATA API였다. 이를 토대로 관광객들의 각 지역 방문 추이를 차트로 보여 줄 수 있을 것이라고 생각했다.


2. 대시 보드 구성

  • API를 토대로 대시 보드의 구성을 했다. 그 과정에서 다른 공모전에 나온 작품들의 대시 보드를 보니 대부분의 대시 보드들이 스토리텔링을 담고 있으면 보는 사람들로 하여금 더 유의미해진다는 것을 알게 되었다.
  • 그래서 구성을 하기에 앞서 만약 여행을 하는 사람이라면 어떤 순서로 여행지를 고르게 될지를 고민하며 팀원들과 대시 보드를 구성해 보았다.
    • 일단 여행을 하는 사람이라면 일단 그 지역에 어떤 시설이 있는지를 볼 것이다. 만약 관광 인프라가 없는 지역이라면 여행의 선택지에서 배제될 확률이 높다.
    • 그리고 각 시설 후기를 볼 것이다. (이 부분은 API로 제공되는 것이 없어 시간이 된다면 데이터 크롤링을 통해 데이터를 적재해 추가하기로 하였다.)
    • 또한 진행하는 행사들이 있는지도 볼 것이다.
    • 그 지역이 치안이 좋은지 좋지 않은지도 보게 될 것이다. (꼭 추가하고 싶었던 부분 중 하나인데 대부분의 데이터가 과거 데이터밖에 없고 최근 데이터가 부족해 이 데이터가 유의미한가를 생각하고 좀 더 찾아 보기로 하였다.)
    • 그 다음으로는 여행지가 얼마나 많은 관심을 받고 있는지 혹은 관심이 떨어진 곳인지 혹은 한국인 관광객이 많은지, 외국인 관광객이 많은지, 그 여행지에 사람이 유독 몰리는 성수기가 언제인지 시기를 보게 될 것이다.

📈 이를 바탕으로 만들어 본 전체적인 대시 보드 구성

  • 지도 포함한 대시 보드

    • 지역별 관광 인프라 분석 (숙박 업소, 음식점, 쇼핑 시설, 여행, 레포츠, 관광지 등)
    • 지역별 행사 일정 및 분포 분석
    • 범죄율로 보는 치안 분석 (최신 데이터가 존재한다면 추가)
    • 고객 만족도 정보 (시간이 된다면 추가)
  • Circular Chart (콤보 박스로 월 선택)

    • 지역별 관광객의 성수기 분포를 보기 위함으로 평균 관광객 수를 기준으로 분석
    • 지역별 월별 관광객 추이 파악
  • Barplot - Curveplot (콤보 박스로 지역 선택)
    - 지역별 기간별 내외국인 관광지 추이 파악
    - 기준이 되는 시설을 막대 그래프로 잡고 관광객 추이를 꺾은 선 그래프로 보여 주어 관광객 대비 관광 인프라 구축이 부족한지 부족하지 않은지 분석


3. 테이블 모델링

  • 데이터 모델링은 다음과 같이 정리하기로 하였다. 대시 보드에서 정말 필요한 데이터가 무엇인지를 먼저 파악한 후 총 여섯 개의 테이블을 구성하였는데 확장 기능이 아닌 기본 구성을 토대로 했을 때는 네 개의 테이블이 필수적으로 필요하다.
    • AREA_TOUR_FACTILITY (지역 관광 시설 테이블)
    • VISITOR_SESSION (일별 방문객 수 테이블)
    • AREA_EVENT (지역 행사 테이블)
    • CODE_DETAIL (코드 마스터 테이블) 즉, 시설 타입 코드나 지역 코드, 시 코드 등을 따로 관리하는 테이블
    • CUSTOMER SATIFACTION (고객 만족도 테이블)
    • AREA_CRIME_RATE (지역 범죄율 테이블)

🔎 어려웠던 내용 & 새로 알게 된 내용

📌 태블로 원 모양 차트 Circular Chart

  • 처음에 원 모양 차트라고 하였을 때는 파이 차트를 생각하였는데 파이 차트와는 모양이 조금 달랐다.
  • 일정 기준을 두고 기준 이상은 어떤 색, 기준 이하는 어떤 색으로 설정해 주어 명확하게 파악할 수 있으며 원의 사이즈와 중심 값과의 거리를 보면서도 파악이 가능하다.
  • 사실 아직 완벽하게 해당 차트를 써 보지 않아 완전하게 이해하지는 못했는데 해당 부분에 대해 조금 더 이해한 후에 추가로 설명을 덧붙여 볼까 한다.
    출처: https://tableauwiki.com/circular_chart/

✍ 회고

- 새로운 프로젝트 주제가 시작되었고, 꽤나 흥미로운 주제가 선정되었다. 그 과정에서 현업에서 많이 사용한다는 태블로를 사용해 보고 싶다는 마음이 생겨 제안을 했는데 팀원들이 다들 반감 없이 찬성해 주었고 덕분에 태블로를 통해 BI 프로젝트를 진행할 수 있었다.

- API를 찾는 과정에서 생각한 건데 생각보다 API를 활용한 공모전이 많이 있고 공모전 제출작들이 많았다. 데이터를 시각화하는 데 있어서 전체적인 흐름이 중요하다는 것을 다른 사람들의 대시 보드를 참고하면서 많이 느꼈고, 그런 대시 보드를 구현하고 싶다는 욕심이 생기게 된 것 같다.

profile
송의 개발 LOG

0개의 댓글