230718-23 WIL

수민·2023년 9월 5일
0

데잇걸즈 7기 STUDY

목록 보기
1/2

데이터 구조론

개요

  • 데이터란 사실&바탕이되는 “자료” : 관찰-규칙
    접근 방식에 항상 WHY/WHAT이 있어야 함

  • 데이터 분석의 목적? 규칙 정의 (=모델링) → 예측 / 분류 / 군집화

  • 데이터 분석 프로세스 2가지 :
    정의-측정-분석-증명-확인 (직렬)
    가설-검증-확인-가설 (순환 구조)
  • 데이터 분석 성숙도 모델:
    WHAT - WHY - WHAT WILL - HOW
    1. 무엇이 문제인가?
    2. 문제의 원인은?
    3. 왜 그렇게 생각하는가 ?
    4. 어떻게 해결가능한가(진짜 가능한가? 방안이 있는가)?
    5. 정말 근본적인 해결책인가(실현가능한지, 사례가 있는지)?
    6. 근거는 (타당한가) ?
  • 빅데이터 속성 : 3V

    규모 Volume
    속도 Velocity
    다양성 Variaty

데이터 모델링 이론

1. 목표 (무엇을 할 것인가)
2. 문제 정의 (진짜 문제점은? 상황&현상->해결 가능한지?)
3. 데이터 수집 ( 문제점에 필요한 정보 리스트업_내부파일, DB, 외부 다운로드 등)
4. 데이터 분석 (기본조사, 전처리, 분석학습, 검증)
5. 결과 도출 (보고서 or 모델-서비스)

  • 데이터 전처리 preprocessing
    1. 수집 : 데이터 타입, 범위, 형태 파악
    2. 시각화 : 고차원 데이터를 식별 가능한 저차원 영역으로 표현
      ㄴ의미 파악에 쓰이는가? 전달(보고)에 쓰이는가?
      ㄴ크기, 비율, 관계, 분포, 정적vs실시간
    3. 분석 : 특성, 관련성 도출
      ㄴ통계(원인-현상파악-의미도출,1회성, 보고서)
      →기계 학습 (수학적 패턴 정형화, 신규 데이터 판단에 사용, 다회성)

기계학습 : 지도(정답o,패턴) vs 비지도(정답x,패턴) vs 강화(보상)

모델링 종류 : 예측 (회귀 그래프. 값이 수치) / 분류(A or B, 값이 카테고리등급) / 군집화 (어느 유형?)


실습

  • 분석주제 선정 및 디벨롭 (5개 중 2개 완성)

주제(분야) : 서울시 대형 예체능 시설 추가 및 활성화 방안 마련 (문화관광)

  • 문제점 : 주요 공연 개최 시 티켓팅 광탈 / 암표 문제가 심함
  • 실제 사유 : 대형 예체능 시설 부족
  • 데이터 리스트업 :
    서울 주 경기장/공연시설별 규모 및 이용 현황
    시설별 공연 목록 주요 규모
    서울 주 경기장 사용자 통계
    서울 주 경기장 운영 수지 현황

주제(분야) : 여름철 모기 창궐 피해 개선안 (환경기상)

  • 문제점 : 여름철에 모기 때문에 불쾌지수가 높다
  • 실제 사유 : 모기 개체수 증가
  • 데이터 리스트업 :
    국내 모기 발생 경로 및 피해 현황
    병해충 방제 현황
    소독 업체 분포 현황
    방역 민원 접수 현황
    2021-2023 모기 예보제 (개체수) 정보
    기상청 기온 및 강수량 변화

회고

Liked :
그동안의 업무 경험에서 데이터 분석이 어느 정도 깊이에 위치해 있었는지 확인
문제 정의법에 대해 좀더 구체화된 방법, 사고방식을 배울 수 있어 좋았다

Lacked :
피드백 시 전제조건 / 문제 범위에 대한 피드백이 대다수 (예: 공연장 문제는 콘서트에 국한되면안될거같은데? 모기 문제는 처음에 모든 벌레로 정의했다가 박귀뵬래시러 감당 불가할거라...)
증명 가능해서->결론도출이 될 것인가에 대한 부분도 있었음

Learned :
문제 정의 / 범위 / 증명 가능한 데이터 여부를 먼저 잘 파악하는게 중요한 것 같다
한 문제점에서 생각보다 다양한 주안점이 많았다. 열린 사고방식
과정에 대한 중요성이 생각보다 크다. 결과중심적인 생각에 치우치지 말자
※뇌피셜 절대 주의해※

Longed for :
공공데이터 활용 사례나 실제 기업에서 어떤 프로세스를 가지는지 서치해보고 학습해보고 싶어졌음
혹은 그동안 진행한 업무 내용 관련해서..? 가능할지 음음.
그래서 시각화는 실제로 어떻게 적용할 수 있는데?

그 외 넋두리 :
일부러 생활패턴 정상화 시키려고 새벽에 일어나서 수업 전에 과제 제출하려 했는데 링크가 닫혀있었음. 문의해보니 자정까지 받았다고 한다 ...........

수업 전까지 내라면서요 ^^ ,,,ㅋ

사실 일부 문제점에 대해선 일부러 지적하기 위해 만든 문제 같다는 느낌이 조금 있었음.
대부분의 문제 정의 실습 시 실질적으로 활용할 수 있는 자료가 공공데이터 분야로 한정적인건 당연한건데. 이것까지 시킬줄은 모르고 주제 선정했다가 데이터 수집 단계에서 주제를 날렸다 ..처음부터 공공데이터 위주로 한정해서 범위를 좁혀줬다면 어땠을까 (비효율에 2차 빡침) 그거말곤 뭐...첫수업이니까......무료니까 ...^^ㅎㅎ..배운거 있잖아 그래도 으응ㅇ..

커피탄다고 아침에 5분 지각했는데 친절한 매니저님이 전화해주셨다. 고3...?

profile
뭐 이것저것 하는거 좋아합니다

0개의 댓글