데이터란 사실&바탕이되는 “자료” : 관찰-규칙
접근 방식에 항상 WHY/WHAT이 있어야 함
데이터 분석의 목적? 규칙 정의 (=모델링) → 예측 / 분류 / 군집화
- 무엇이 문제인가?
- 문제의 원인은?
- 왜 그렇게 생각하는가 ?
- 어떻게 해결가능한가(진짜 가능한가? 방안이 있는가)?
- 정말 근본적인 해결책인가(실현가능한지, 사례가 있는지)?
- 근거는 (타당한가) ?
규모 Volume
속도 Velocity
다양성 Variaty
1. 목표 (무엇을 할 것인가)
2. 문제 정의 (진짜 문제점은? 상황&현상->해결 가능한지?)
3. 데이터 수집 ( 문제점에 필요한 정보 리스트업_내부파일, DB, 외부 다운로드 등)
4. 데이터 분석 (기본조사, 전처리, 분석학습, 검증)
5. 결과 도출 (보고서 or 모델-서비스)
- 수집 : 데이터 타입, 범위, 형태 파악
- 시각화 : 고차원 데이터를 식별 가능한 저차원 영역으로 표현
ㄴ의미 파악에 쓰이는가? 전달(보고)에 쓰이는가?
ㄴ크기, 비율, 관계, 분포, 정적vs실시간- 분석 : 특성, 관련성 도출
ㄴ통계(원인-현상파악-의미도출,1회성, 보고서)
→기계 학습 (수학적 패턴 정형화, 신규 데이터 판단에 사용, 다회성)
기계학습 : 지도(정답o,패턴) vs 비지도(정답x,패턴) vs 강화(보상)
모델링 종류 : 예측 (회귀 그래프. 값이 수치) / 분류(A or B, 값이 카테고리등급) / 군집화 (어느 유형?)
주제(분야) : 서울시 대형 예체능 시설 추가 및 활성화 방안 마련 (문화관광)
- 문제점 : 주요 공연 개최 시 티켓팅 광탈 / 암표 문제가 심함
- 실제 사유 : 대형 예체능 시설 부족
- 데이터 리스트업 :
서울 주 경기장/공연시설별 규모 및 이용 현황
시설별 공연 목록 주요 규모
서울 주 경기장 사용자 통계
서울 주 경기장 운영 수지 현황
주제(분야) : 여름철 모기 창궐 피해 개선안 (환경기상)
- 문제점 : 여름철에 모기 때문에 불쾌지수가 높다
- 실제 사유 : 모기 개체수 증가
- 데이터 리스트업 :
국내 모기 발생 경로 및 피해 현황
병해충 방제 현황
소독 업체 분포 현황
방역 민원 접수 현황
2021-2023 모기 예보제 (개체수) 정보
기상청 기온 및 강수량 변화
Liked :
그동안의 업무 경험에서 데이터 분석이 어느 정도 깊이에 위치해 있었는지 확인
문제 정의법에 대해 좀더 구체화된 방법, 사고방식을 배울 수 있어 좋았다
Lacked :
피드백 시 전제조건 / 문제 범위에 대한 피드백이 대다수 (예: 공연장 문제는 콘서트에 국한되면안될거같은데? 모기 문제는 처음에 모든 벌레로 정의했다가박귀뵬래시러감당 불가할거라...)
증명 가능해서->결론도출이 될 것인가에 대한 부분도 있었음
Learned :
문제 정의 / 범위 / 증명 가능한 데이터 여부를 먼저 잘 파악하는게 중요한 것 같다
한 문제점에서 생각보다 다양한 주안점이 많았다. 열린 사고방식
과정에 대한 중요성이 생각보다 크다. 결과중심적인 생각에 치우치지 말자
※뇌피셜 절대 주의해※
Longed for :
공공데이터 활용 사례나 실제 기업에서 어떤 프로세스를 가지는지 서치해보고 학습해보고 싶어졌음
혹은 그동안 진행한 업무 내용 관련해서..? 가능할지 음음.
그래서 시각화는 실제로 어떻게 적용할 수 있는데?
그 외 넋두리 :
일부러 생활패턴 정상화 시키려고 새벽에 일어나서 수업 전에 과제 제출하려 했는데 링크가 닫혀있었음. 문의해보니 자정까지 받았다고 한다 ...........
수업 전까지 내라면서요 ^^ ,,,ㅋ
사실 일부 문제점에 대해선 일부러 지적하기 위해 만든 문제 같다는 느낌이 조금 있었음.
대부분의 문제 정의 실습 시 실질적으로 활용할 수 있는 자료가 공공데이터 분야로 한정적인건 당연한건데. 이것까지 시킬줄은 모르고 주제 선정했다가 데이터 수집 단계에서 주제를 날렸다 ..처음부터 공공데이터 위주로 한정해서 범위를 좁혀줬다면 어땠을까 (비효율에 2차 빡침) 그거말곤 뭐...첫수업이니까......무료니까 ...^^ㅎㅎ..배운거 있잖아 그래도 으응ㅇ..
커피탄다고 아침에 5분 지각했는데 친절한 매니저님이 전화해주셨다. 고3...?