교통 데이터 전처리-교통량과 CO2 관련 분석 모델 만들기 2일차

지니의 길옥·2023년 7월 27일
0

환경통계연구실

목록 보기
3/19

어제 처리했던 데이터를 사수 오빠에게 확인 부탁드렸다.

전체적으로 코드가 어렵지않아 문제되는 부분은 없었지만 내가 생각한 방향이 잘못된 것은 몇 개 있었다.

개선 사항을 말씀해주셔서 후다닥 받아 적었다.

위의 사진과 같이 수정사항은 다음과 같다.

    1. merge()함수에서 how=inner를 사용함에도 불구하고 행의 개수가 늘어났다.
      이 연유를 한번 찾아볼 것.
    1. 24시를 0시로 컬럼 이름만 바꾸면 안된다.
      행의 배열을 바꿀 방법을 고안할 것.

그리고 어제 시간이 조금 늦어져서 여쭤보지 못하고 내 소신껏 필요있는 열, 필요없는 열을 선택해서 제거했는데 역시 빼면 안되는 것이 존재했다.

이건 나중에 새로운 모델을 또 만들 때 반영하기로 했다.

오늘은 두 번째 문제를 해결해 보기로 한다.


문제 2

내가 변경한게 문제되는 이유는 예를 들어 20230101의 24시는 20230102의 0시로 두개의 데이터가 형태가 같지 않음에서 기인한다.

오늘도 이렇게 내가 생각한 것들을 적어가면서 고민했다.

그러다 내가 결정한 방법은 따로 데이터 프레임을 빼내어 거기거 일자를 1씩 더하고 다시 기존의 데이터프레임에 더하는 방법이다.

내가 아는 지식을 총동원해서 작성했다.

오늘의 주인공을 먼저 출력한다.

데이터타입은 int64

이걸 datetime으로 바꾸어 줘야한다!

velo_del['일자']=velo_del['일자'].astype('str')


위의 코드를 쓰면 형태는 object로 변한다.

pd.to_datetime(velo_del['일자'])

to_datetime해주면 형태가 datatime으로 변한다.

그리고 필요할 것 같은 컬럼을 따로 데이터프레임으로 만든 다음

새로운 열을 추가했다.

from datetime import datetime, timedelta

timedelta를 쓰기 위해 datetime임포트 해주고

velo_date['일자_datetime']=pd.DatetimeIndex(velo_date['일자_datetime'])+timedelta(days=1)
velo_date

일자_datetime 컬럼에 1일씩 더해주면

날짜가 1일씩 늘어난 것을 볼 수 있다!
이거찾느라 힘들었다

기존의 '일자'컬럼을 삭제하고 1일씩 더해준 것으로 대체해주었다.

그리고 이제 기존의 데이터 프레임과 새롭게 만든(일자에서 1을 더해준)것으로 더해주려고 했으나...

에러가 났다!

기존에 쓰던 노트북이 구글 코랩이었는데 거기서 RAM용량을 모두 사용했다고 떴다.

그래서 런타임이 강제 종료되었다...
(여기서 1차 멘붕)

나는 그래서 구글 코랩 무료판을 쓰고 있어서 그게 문젠가 생각하여 주피터 노트북으로 옮겨보았지만 역시 에러..
(2차 멘붕)

이후로 해결하지는 못했다.

아마 내가 계속해서 데이터를 불러오느라 용량을 다 쓴 것 같았다.

이건...내일 오빠에게 한번 물어보아야겠다..

2일차 전처리 시도 끝,,,😔

profile
비전공자 주인장 일하느라 방치

0개의 댓글

Powered by GraphCDN, the GraphQL CDN