계획(?) 잡기

유현민·2022년 6월 20일
0

대강 어떻게 작동되는 걸 만들까 고민했다.
물론 회사에서 어떻게 하는지 알면 좋겠지만... 취준생이니까 최대한 구글링 해서 해보자!

'데이터 엔지니어들은 데싸에게 데이터를 제공한다.'

이런 생각으로 내가 만약 데엔이면 데싸에게 어떻게 줄까?를 고민해봄

이것 저것 적어보기

  1. 따릉이 정보를 가져와서 분석 결과를 볼 수 있게 만들기
  2. 하루에 한번 결과를 가져온다.
  3. 데이터 웨어하우스 생성
  4. 일주일?... 일년은 너무 많다...
  5. 나중에 한달 해보자. 기간이 너무 짧으면 분석이 불가능.
  6. 클라우드로 옮기면 컴퓨팅 파워가 되니까 많은 데이터를 넣어보자.
  7. 태블로 사용해볼 계획
  8. 조금 더 다양한 데이터를 넣어보자...
  9. 기회가 된다면 vm을 3대정도 사용하여 하둡에 적재하고 spark로 불러와서 간단한 데이터 분석도 진행해보고 싶다...

작업 순서

  1. 가상환경 설정
  2. api연결
  3. db연결
  4. 데이터 형식 맞춰서 db에 삽입
  5. 태블로
  6. 대시보드 작성(?)
  7. airflow or crontab(자동화 해보고 싶어서...)
  8. aws rdb 사용 및 s3 사용(s3가 hadoop이랑 비슷하다고 어디서 들었다...)
  9. docker 사용 해보기
  10. hadoop and spark 사용해보기
  11. spark이용해서 분석

사실 이대로 할지도 모르겠다...

따릉이 실시간 데이터

  • 그나마 제일 만만한 따릉이
  1. 대여소 1~ 2872
  2. json으로 받아와서 나누기
  3. db 형식에 맞게 넣기
  4. 7일 지나면 1일 데이터 삭제
  5. truncate / append(이건 생각중)
  6. airflow or crontab 사용
  7. 거치율(shared) = 거치된 자전거 대수 / 총 거치대 수량
  8. 넘어오는 모든 데이터를 저장할 계획

날씨 데이터

  • 날씨에 따라 따릉이 이용률이 변한다.
  1. 평균 기온(avgTa)
  2. 일 강수량(sumRn)
  3. 평균 풍속(avgWs)
  4. 9-9강수(n99Rn)
  5. 서울코드- 108

공휴일 데이터

  • 공휴일에 사람들이 따릉이를 많이 타지 않을까??

다른 데이터 추가 예정

고민중...

  1. 데이터가 많으니까 대여소ID 및 index로 구별하고 싶다.
    1-1 만약 index를 AI로 설정하면
    나중에 하루치 데이터 추가할 때 idx를 초기화 해야함

    update bike set bike.idx = @cnt:=@cnt+1

  2. id_index테이블 만들었다...
    나중에 태블로에 데이터 연결할 때 메인 데이터베이스에서 컬럼 가져오지 않고 서브에서 가져오려고 만듦
    bike에 index 없어도 될듯...?

profile
smilegate megaport infra

0개의 댓글