230724-30 WIL

수민·2023년 9월 12일
0

데잇걸즈 7기 STUDY

목록 보기
2/2

데이터 구조론

시각화 실습 : 파워 BI를 통한 데이터 시각화 대시보드 그리기

대부분의 시각 차트는 2차원-> 기준/표현 데이터 적절하게 나눌 것

  • 데이터 전처리

    결측값 처리

    1. 안쓰는 방법 : 해당 Row/Columm을 배제 ->보통 Row를 배제시킴 (행 하나 삭제)
    2. 채우는 방법 (체계적인 수치) : 해당 Column의 평균값으로 대체
    3. 근사값으로 넣어버리기 : but 임의로 채우는건 권장x 정말 한정적인 경우에만

    형식 변환 (정보 변경,부풀리기)

    1. 타입 : 숫자를 텍스트로 편집
    2. 문자 다듬기
    3. 숫자 계산 : 소수점 처리 (숫자 형식 : 소수점이 있으면 실수_float / 없으면 정수 integer)

    그 외 정규화 , 이상치(터무니없이 범주에서 벗어난거) 처리 등등

  • 공간데이터 : 좌표 기준 지도상 매핑, 거시적으로 안보, 관리, 안전에 주요 역할 수행
    ㄴ 래스터 : 실세계를 열과 행으로 배치된 화소들의 배열로 구성
    ㄴ 벡터 : 실세계를 점과 베지에 곡선을 이용해 테두리와 내부를 채워 구성 (점,선 ,면) →픽셀

  • JSON
    데이터를 저장/전달하기 위해 고안된 데이터 교환 형식, 읽기 편한 구조
    계층적인 데이터 구조이며, 프로그래밍 언어에 의해 파싱될 수 있음
    • 종료 태그를 사용하지 않음
    • 배열 사용 가능 (배열, 객체 단위 메시지)
    • 자바 스크립트 표준함수 (eval()) 로 xml보다 간결하게 파싱 가능

폴리곤 형태로 공간 데이터 시각화

  • qGIS : 공간데이터 조회, 편집, 분석 기능을 제공하는 지리정보시스템 소프트웨어(오픈소스)

데이터 전처리 (1)

  1. 구역 정보를 담고 있는 geojson 파일 구하기 (지리 데이터 인코딩 형식 파일)

  2. qGIS에 기본 레이어 정보 로드 및 실행

  3. XYZ Tiles - 새 연결 - 확인 후 구글맵 더블 클릭해서 레이어 추가
    ㄴ 이름: 구글맵 (별도 네이밍 지정)
    ㄴ URL: http://mt0.google.com/vt/lyrs=m&hl=kr&x={x}&y={y}&z={z}&s=Ga

  4. 행정동 정보 로드
    ㄴ 레이어 - 레이어 추가 - 벡터 레이어 추가 - geojson 파일 추가 (인코딩 euckr)

  5. 행정동 레이어 우클릭 - 레이어로 확대/축소 - 경계 내에서 시각화를 원하는 지점 활성화

데이터 전처리 (2)

  1. 데이터 로드 : 레이어 - 레이어 추가 - 구분자로 분리된 텍스트 레이어를 추가

    파일포멧 - 사용자 정의 구분자 - 쉼표에 체크
    지표 정보 불러오기(인코딩: euckr)
    도형 정의 / 포인트 좌표 / x필드에 경도, y필드에 위도
    도형 좌표계: 기본 좌표계

  2. 레이어 결합: 벡터 - 데이터 관리 도구 - 위치에 따라 속성을 결합

    Join to features in: 지표 정보 파일 (서울시 따릉이 정보 마스터 예제 사용)
    By comparing to: 기본 레이어 정보 데이터 (행정동)
    기하학적 조건: 내부 (are within)
    결합 유형: one-to-many

  3. 결합된 레이어 내보내기 : 결합된 레이어 마우스 오른쪽 버튼 - Export - 객체를 다른 이름으로 저장 -> geojson이 반영된 csv 파일 생성

    쉼표로 구분된 값 (CSV) / euckr / 기본좌표계 / 파일 이름 -> 확인

데이터 전처리 (3)

  • topojson 만들기
  1. mapshaper.org 브라우저 접속
  2. geojson 파일 경로 지정해서 import (hangjeongdong_seoul.geojson 예제 사용)
  3. Export - topojson으로 변환 및 내보내기 (GeoJson의 확장형, 중복 제거)

데이터 시각화

<작업 필요 파일 list>

  • 데이터 전처리(1)에 쓰인 사전 JSON 파일.geojson
  • 데이터 전처리(2)로 geojson이 반영된 csv
  • 데이터 전처리(3).json (topo)
  1. PowerBI에서 불러와서 분석

    데이터 가져오기로 geojson.csv 로드
    데이터 변환에 들어가서 adm* 데이터 타입을 숫자-> 텍스트로 변환

  2. 모델링
    분석을 원하는 정보가 있는 데이터 -(모델)- GIS를 반영한 데이터

    ㄴ(1) 분석해야할 데이터가 하나인 경우 → 보이는 그대로 시각화

    ㄴ(2) 기존 모델이 있는 경우 : 시각화를 원하는 데이터와 모델 연결
    시각화 연결 -> 도형맵 클릭
    - 위치: adm_cd2 / 색채도: 내가 표현하고자 하는 필드 / 범례: 기준(구)
    - 시각적 개체 서식 지정 - 지도 설정 - 맵 유형(사용자 지정)
    - 맵 유형 추가 - mapshaper로 변환한 topojson(.json) 파일 지정
    업로드중..

***만약 전국 행정동 지도에서 원하는 지역만 뽑고 싶다면?
- qGIS 실행 - 구글맵 추가
- 레이어 추가(HangJeongDong_.geojson)
- ex. 제주도 지역만 뽑아내고 싶다면
    - 행정동 레이어 마우스 오른쪽 - 속성 테이블 열기
    - 원하는 지역만 선택하고 속성 테이블 닫기
    - 행정동 레이어 마우스 오른쪽 - Export - 선택한 객체를 다른 이름으로 저장
    - 포맷: GeoJSON - 프로젝트 좌표계 - 이름 지정 - 내보내기
    - mapshaper에서 topojson으로 변환

회고

Liked :
어라 이정도면 조금 더 신경 좀 쓰면 할만 하겠는데...?
power bi 생각보다 유용하고 쓸만하다. 특히 로우 처리가 엑셀 대비 훨씬 간편하게 다가옴

Lacked :
qGIS 진짜 꼭 써야만 할까................어렵다의 범주 보다는 번거로운 작업이었다.
내가 하고 싶은 분야는 지도 데이터를 쓸 일이 딱히 없지 않을까 하는 오판이 스멀스멀 기어올라옴
이래놓고 데이터 찾다가 예제 외 실질적 결과물까지 못갔음.

Learned :
공연장 정보 관련해서 기준점이 전부 다르다 보니(데이터 출처에 따라 공연 장소/좌석 별로 주소값이 다 나뉘어 있었음) 키값을 새로 설정하거나 노가다로 주소값 일원화가 좀 필요함. 이런 문제는 어떻게 해결해야할지 물어봤어야 했는데 혼자 머리싸매다가 실패했다.강의 들으면서 콧대만 높아지다니 반성해야겠다.

  • 질문을 많이 하자.
  • 머리 처박기 금지
  • 수업 참여하는 의미 잊지말기.
  • 엑셀 찾기 금지.

Longed for :
그래서 최종 시각화는 결국 본인 재량에 달렸음
-> 관련한 책을 알라딘 중고서점에서 하나 샀다. 나도 이걸 보고 꼭 대시보드 설계 짱이 되어야지
-> 대시보드 설계에도 why의 중요성 잊지 말자. 시나리오 짜보기
새로운 도전에 게을러지지 않는 것 꼬옥 약속하기로해

profile
뭐 이것저것 하는거 좋아합니다

0개의 댓글