Input, Target 나누기-교통량과 CO2 관련 분석 모델 만들기 6일차

지니의 길옥·2023년 8월 7일

환경통계연구실

목록 보기

6/19

이전까지 데이터를 다루기 쉽게 예쁘게 다듬었다면 오늘부터는 Input과 Target데이터로 나누는 작업을 진행할 것이다.

$Y$ 를 교통량, $X$ 를 속도로 놓고 모델링을 진행할 것이다.

그렇게 해서 $Y=aX+b$ 라는 식으로 최적의 값을 찾을 수 있게 되는 것이다.

그리고 머신러닝 중에서도 랜덤 포레스트를 이용해서 모델을 만들 것이다.

그렇게 호기롭게 뛰어는 들었지만...

방향성을 잡는게 쉽지가 않았다😫

input과 target에 대한 이해도가 부족했던 걸 까....

혼공머신에서 도미와 빙어 데이터로 설명변수와 목적변수에 대해 그리고 선형회귀에 대해서도 공부를 했는데 뭔가 뜬구름 잡듯이 머릿속에 개념들이 둥둥 떠다니는 느낌이었다.

완벽하게 내 것으로 만들지 못했기 때문이겠지...

계속 생각하고...서치하고...끄적이고...📝

내가 계속 갈피를 못 잡았던 이유는 컬럼이 많다는 점에서 기인했다.

그래서 오늘 몇 시간 고민한 결과는...

👉교통 데이터와 속도 데이터의 컬럼들을 동일하게 맞춰주었다->매칭해주려고! ->그러면 우선 두 개의 데이터를 컬럼끼리 매치해주자!

👉그럼 0시,1시..23시까지 링크아이디에 맞는 데이터들이 맞춰진다.

👉이후에 각 시간별로 $Y=aX+b$ , 선형함수를 만들어 학습을 시켜주고 최적화하는 계수들을 찾는다.

사수 오빠에게 내가 생각한 방향에 대해 물어보고 괜찮다는 답을 듣게되면 위의 방법을 진행해야겠다!

아래는 내가 참고하면 좋을만한 사이트!ㅎㅎ

https://pydata.tistory.com/29

비전공자 주인장 일하느라 방치