부스트캠프 Visualization week1

Dae Hee Lee·2021년 8월 9일
0

BoostCamp_Visulization

목록 보기
1/2

마스터 클래스

안 수빈 님
Data Literacy & Data Visualization

Contributor
실력은 기본, 함께 하고 싶은 개발자

기술 중심 <---> 인간 중심

  • 문제를 잘 푸는 것보다 문제를 제기할 수 있어야 한다.
  • 소통 능력
  • Branding
    비슷한 내용이면 포장으로 차이를 낼 수 있다.
  • Vision
    기술이 기술만을 위한 기술로 남지 않기 위해서는?

Data Literacy
데이터 리터러시는 데이터를 건전한 목적과 윤리적인 방법으로 사용한다는 전제 하에, 현실 세상의 문제에 대한 끊임없는 탐구를 통해 질문하고 답하는 능력
1) 좋은 질문을 할 수 있는 역량
2) 필요한 데이터를 선별하고 검증할 수 있는 역량
3) 데이터 해석 능력을 기반으로 유의미한 결론을 만들어내는 역량
4) 가설 기반 A/B\mathrm{A} / \mathrm{B} 테스트를 수행하여 결과를 판별할 수 있는 역량
5) 의사결정자들도 이해하기 쉽게 분석 결과를 표현할 수 있는 역량
6) 데이터 스토리텔링을 통해 의사결정자들이 전체그림을 이해하고 분석 결과에 따라 실행하게 하는 역량

  • 데이터를 이쁘게 보여주는 것?
  • 데이터를 막대그래프, 선그래프 등으로 그려 정보를 raw data보다 쉽게 전달하는 것?
  • 많은 데이터를 효과적으로 보는 방법?

데이터를 필요에 맞게 시각적 요소로 변환하여 이해하기 쉽게 시각적으로 전달

  • 데이터를 필요에 맞게 시각적 요소로 변환하여 이해하기 쉽게 시각젹으로 전달 \quad Data manipulation \& Encoding
  • 데이터를 필요에 맞게 시각적 요소로 변환하여 이해하기 쉽게 시각적으로 전달 \quad Goal \& Target Audience
  • 데이터를 필요에 맞게 시각적 요소로 변환하여 이해하기 쉽게 시각적으로 전달 Prevent Misleading
  • 데이터를 필요에 맞게 시각적 요소로 변환하여 이해하기 쉽게 시각적으로 전달Observation \& Aesthetic

Data Science에서 Visualization을 하는 이유

  1. 시각화를 하는 과정에서 데이터를 살피며 데이터에서 인사이트 얻기
  • XX 를 살펴보자로 시작하여 XX 를 찾는 과정
    X-X 를 살펴보자로 시작하여 YY 를 찾는 과정
  • Dashboard 등의 시각화는 단순 정보를 시각화하고, 사용자는 탐색하며 인사이트 획득
  1. 결과를 효과적으로 보여주기
  • 데이터 중심 커뮤니케이션을 위해서는 단순히 정보만으로는 불가능
  • 설득의 핵심은 이성 + 감성 + 신뢰! 이성과 감성을 자극하자

Data Visualization 종류

  • Information Visualization
    - 기존 데이터의 통계치 등의 정보를 시각적으로 전달
  • Scientific Visualization
    - 이미지, 오디오, 3D 객체 등의 객체 관찰 또는 시뮬레이션을 효과적으로 살피기 위한 시각화
  • Infographic
    - 전달하고자 하는 메시지를 데이터를 통한 스토리텔링으로 전달
  • Data Art
    - 데이터를 사용하여 예술적으로 표현

AI에서 Data Visualization이 중요한 이유

  • 데이터를 사용한 설득
    - 의료, 경제 등 실질적 손실이 가는 분야일수록 신뢰가 필요
    - 기계가 하는 걸 어떻게 믿어요? 와 사람이 하는 걸 어떻게 믿어요의 커넥션
  • Metric에 따라 높은 Score를 가지면 좋은 Al Model일까?
    - 기본적인 성능과 안전성은 필수
    - 그 다음은 Product이고, 그 때부터는 UX!! (사용자 경험)
    - 제한적인 환경(논문, 서비스 등)에서 최대한으로 보여줄 수 있어야 한다.
    - 시각화는 UX의 다양한 고려점 중 하나이자 좋은 연습 도구.

  • Interpretability \& Explainability
    - 해석가능하고 설명가능한 인공지능을 위해
  • Comparing \& Selecting Models
    - 모델을 비교하고 선택하기 위해
  • Debugging \& Improving Models
    - 모델을 디버깅 / 모델의 성능을 향상하기 위해
  • Teaching Deep Learning Concepts
    - 딥러닝 이론을 가르치기 위해

Tensorboard, Wandb 등을 통해 시각화

비교를 위한 시각화

CNN Explainer

시각화는 언제?

훈련 전 데이터를 살피면서,
훈련 중 잘 훈련되는지,
훈련 후 결과를 어떻게 해석할 것인지에 대해

Distill : 인터랙티브 논문!

누구에게 전달하는 것인지에 따라 달라진다.

데이터셋의 종류

정형 데이터

  • CSV,TSV파일
  • 한 줄에 한 item
  • 통계적 특성(분포, 평균 등)과 feature 사이 관계
  • 데이터 간 관계
  • 데이터 간 비교

시계열 데이터

  • 시간 흐름에 따른 데이터
  • 기온, 주가 등 정형데이터와 음성, 비디오와 같은 비정형 데이터도 존재
  • 추세, 계절성, 주기성 확인

지리 데이터

  • 지도 정보와 보고자하는 정보 간의 조화 중요 + 지도 정보를 단순화
  • 거리,경로,분포 등 다양한 실사용

관계형(네트워크) 데이터

  • (Graph or Network) Visualization
  • 객체는 Node, 관계는 Link로
  • 크기, 색, 수 등으로 객체와 관계의 가중치를 표현
  • 휴리스틱하게 노드 배치를 구성

계층적 데이터

  • 관계 중에서도 포함관계가 분명한 데이터
    - 네트워크 시각화로도 표현 가능
  • Tree, Treemap, Sunburst 등

다양한 비정형 데이터

데이터의 종류

시각화 이해하기

마크와 채널

  • A mark is a basic graphical element in an image
    (점, 선, 면으로 이루어진 데이터 시각화)

  • A visual channel is a way to control the appearance of marks, independent of the dimensionality of the geometric primitive.

profile
Today is the day

0개의 댓글