대강 어떻게 작동되는 걸 만들까 고민했다.
물론 회사에서 어떻게 하는지 알면 좋겠지만... 취준생이니까 최대한 구글링 해서 해보자!
'데이터 엔지니어들은 데싸에게 데이터를 제공한다.'
이런 생각으로 내가 만약 데엔이면 데싸에게 어떻게 줄까?를 고민해봄
이것 저것 적어보기
- 따릉이 정보를 가져와서 분석 결과를 볼 수 있게 만들기
- 하루에 한번 결과를 가져온다.
- 데이터 웨어하우스 생성
- 일주일?... 일년은 너무 많다...
- 나중에 한달 해보자. 기간이 너무 짧으면 분석이 불가능.
- 클라우드로 옮기면 컴퓨팅 파워가 되니까 많은 데이터를 넣어보자.
- 태블로 사용해볼 계획
- 조금 더 다양한 데이터를 넣어보자...
- 기회가 된다면 vm을 3대정도 사용하여 하둡에 적재하고 spark로 불러와서 간단한 데이터 분석도 진행해보고 싶다...
작업 순서
- 가상환경 설정
- api연결
- db연결
- 데이터 형식 맞춰서 db에 삽입
- 태블로
- 대시보드 작성(?)
- airflow or crontab(자동화 해보고 싶어서...)
- aws rdb 사용 및 s3 사용(s3가 hadoop이랑 비슷하다고 어디서 들었다...)
- docker 사용 해보기
- hadoop and spark 사용해보기
- spark이용해서 분석
사실 이대로 할지도 모르겠다...
따릉이 실시간 데이터
- 대여소 1~ 2872
- json으로 받아와서 나누기
- db 형식에 맞게 넣기
- 7일 지나면 1일 데이터 삭제
- truncate / append(이건 생각중)
- airflow or crontab 사용
- 거치율(shared) = 거치된 자전거 대수 / 총 거치대 수량
- 넘어오는 모든 데이터를 저장할 계획
날씨 데이터
- 평균 기온(avgTa)
- 일 강수량(sumRn)
- 평균 풍속(avgWs)
- 9-9강수(n99Rn)
- 서울코드- 108
공휴일 데이터
- 공휴일에 사람들이 따릉이를 많이 타지 않을까??
다른 데이터 추가 예정
고민중...
-
데이터가 많으니까 대여소ID 및 index로 구별하고 싶다.
1-1 만약 index를 AI로 설정하면
나중에 하루치 데이터 추가할 때 idx를 초기화 해야함
update bike set bike.idx = @cnt:=@cnt+1
-
id_index테이블 만들었다...
나중에 태블로에 데이터 연결할 때 메인 데이터베이스에서 컬럼 가져오지 않고 서브에서 가져오려고 만듦
bike에 index 없어도 될듯...?