계획(?) 잡기

유현민·2022년 6월 20일

공공API 활용하여 DW 구축 및 BI 대시보드 만들기

목록 보기

2/17

대강 어떻게 작동되는 걸 만들까 고민했다.
물론 회사에서 어떻게 하는지 알면 좋겠지만... 취준생이니까 최대한 구글링 해서 해보자!

'데이터 엔지니어들은 데싸에게 데이터를 제공한다.'

이런 생각으로 내가 만약 데엔이면 데싸에게 어떻게 줄까?를 고민해봄

이것 저것 적어보기

따릉이 정보를 가져와서 분석 결과를 볼 수 있게 만들기
하루에 한번 결과를 가져온다.
데이터 웨어하우스 생성
일주일?... 일년은 너무 많다...
나중에 한달 해보자. 기간이 너무 짧으면 분석이 불가능.
클라우드로 옮기면 컴퓨팅 파워가 되니까 많은 데이터를 넣어보자.
태블로 사용해볼 계획
조금 더 다양한 데이터를 넣어보자...
기회가 된다면 vm을 3대정도 사용하여 하둡에 적재하고 spark로 불러와서 간단한 데이터 분석도 진행해보고 싶다...

작업 순서

가상환경 설정
api연결
db연결
데이터 형식 맞춰서 db에 삽입
태블로
대시보드 작성(?)
airflow or crontab(자동화 해보고 싶어서...)
aws rdb 사용 및 s3 사용(s3가 hadoop이랑 비슷하다고 어디서 들었다...)
docker 사용 해보기
hadoop and spark 사용해보기
spark이용해서 분석

사실 이대로 할지도 모르겠다...

따릉이 실시간 데이터

그나마 제일 만만한 따릉이

대여소 1~ 2872
json으로 받아와서 나누기
db 형식에 맞게 넣기
7일 지나면 1일 데이터 삭제
truncate / append(이건 생각중)
airflow or crontab 사용
거치율(shared) = 거치된 자전거 대수 / 총 거치대 수량
넘어오는 모든 데이터를 저장할 계획

날씨 데이터

날씨에 따라 따릉이 이용률이 변한다.

평균 기온(avgTa)
일 강수량(sumRn)
평균 풍속(avgWs)
9-9강수(n99Rn)
서울코드- 108

공휴일 데이터

공휴일에 사람들이 따릉이를 많이 타지 않을까??

다른 데이터 추가 예정

고민중...

데이터가 많으니까 대여소ID 및 index로 구별하고 싶다.
1-1 만약 index를 AI로 설정하면
나중에 하루치 데이터 추가할 때 idx를 초기화 해야함

update bike set bike.idx = @cnt:=@cnt+1
id_index테이블 만들었다...
나중에 태블로에 데이터 연결할 때 메인 데이터베이스에서 컬럼 가져오지 않고 서브에서 가져오려고 만듦
bike에 index 없어도 될듯...?

smilegate

이전 포스트

혼자하는 프로젝트- 1

다음 포스트

따릉이 데이터 저장

0개의 댓글