교통량,속도 데이터 합치기 - 교통량과 CO2 관련 분석 모델 만들기 7일차

지니의 길옥·2023년 8월 8일
0

환경통계연구실

목록 보기
7/19
post-thumbnail

썸네일 새로 만들었다..!!!


컬럼이 많다는 것이 나에게 걸리는 부분이었고 내가 아는 예제들은 모두 데이터 프레임이 하나(?)로 되어 있다고 생각해서 두 개의 데이터를 합치자고 생각했다.

이해도가 부족한 것 같아 아이리스 데이터를 이용해 선형회귀식을 만드는 예제에서도 두개의 특징이 합쳐져있어서 여기서 아이디어를 얻었다.

이전에 일자를 1일씩 더할 때 merge()를 이용해서 여기서도 사용하기로 했다.

테스트로 'df1'으로 새로운 변수를 만들어 준 다음 left join을 사용하여 'velo3_fin'인 속도 데이터를 기준으로 조인했다.


에잉😯? 왜 안돼

'교통량 데이터'의 일자와 '속도 데이터'의 일자의 데이터 타입을 맞춰주지 않았다..!

부랴부랴 맞춰주고

traffic_fin['일자']=traffic_fin['일자'].astype('str')
traffic_fin['일자']=pd.to_datetime(traffic_fin['일자'])


더하려고 했는데..

생각해보니까 시간 표기가 속도 데이터는 01,02시 이렇게 되어 있고 교통량 데이터는 1시,2시 이런 식으로 되어 있었다.

아오😤

물론 이 둘을 합칠 건 아니지만 그래도 컬럼명은 맞춰야 할 것 같아서 rename을 해주었다.

velo3_fin=velo3.rename(columns={"시점명_x":"시점명","종점명_x":"종점명","24시":"0시","01시":"1시", "02시":"2시", "03시":"3시","04시":"4시","05시":"5시","06시":"6시","07시":"7시","08시":"8시","09시":"9시"})

이제 정말 같게 만들어 줬으니까 더하려고 했는데...

갑자기 누구를 기준으로 해야할지 헷갈렸다😵‍💫!

👉교통량 데이터를 기준으로

df1=pd.merge(velo3_fin,traffic_fin,on=['일자','요일','링크아이디','시점명','종점명'], how='right')


👉속도 데이터를 기준으로

df2=pd.merge(velo3_fin,traffic_fin,on=['일자','요일','링크아이디','시점명','종점명'], how='left')

속도 데이터가 행이 더 많아서 교통량 데이터를 끼운 다음에 NaN값을 제거하려고 했는데 머지하니까 행이 또 늘어나고 뭔가...아닌것 같았다.
이걸 말로 설명을 못하는 내가 참 바보같다😑

그리고 NaN값을 지우려고 확인해봤는데

오 안될것 같다 !하하하!!!

일단 NaN 값이 있는 상태로 함수를 그릴 예정이다..
절대 어떻게 해야될지 몰라서 그러는거 아니다. 쨋든 아니다

아이리스 예제 한번만 돌려보고 더 해야징 히히🤓

profile
비전공자 주인장 일하느라 방치

0개의 댓글