이전까지 데이터를 다루기 쉽게 예쁘게 다듬었다면 오늘부터는 Input과 Target데이터로 나누는 작업을 진행할 것이다.
를 교통량, 를 속도로 놓고 모델링을 진행할 것이다.
그렇게 해서 라는 식으로 최적의 값을 찾을 수 있게 되는 것이다.
그리고 머신러닝 중에서도 랜덤 포레스트를 이용해서 모델을 만들 것이다.
그렇게 호기롭게 뛰어는 들었지만...
방향성을 잡는게 쉽지가 않았다😫
input과 target에 대한 이해도가 부족했던 걸 까....
혼공머신에서 도미와 빙어 데이터로 설명변수와 목적변수에 대해 그리고 선형회귀에 대해서도 공부를 했는데 뭔가 뜬구름 잡듯이 머릿속에 개념들이 둥둥 떠다니는 느낌이었다.
완벽하게 내 것으로 만들지 못했기 때문이겠지...
계속 생각하고...서치하고...끄적이고...📝
내가 계속 갈피를 못 잡았던 이유는 컬럼이 많다는 점에서 기인했다.
그래서 오늘 몇 시간 고민한 결과는...
👉교통 데이터와 속도 데이터의 컬럼들을 동일하게 맞춰주었다->매칭해주려고! ->그러면 우선 두 개의 데이터를 컬럼끼리 매치해주자!
👉그럼 0시,1시..23시까지 링크아이디에 맞는 데이터들이 맞춰진다.
👉이후에 각 시간별로 , 선형함수를 만들어 학습을 시켜주고 최적화하는 계수들을 찾는다.
사수 오빠에게 내가 생각한 방향에 대해 물어보고 괜찮다는 답을 듣게되면 위의 방법을 진행해야겠다!
아래는 내가 참고하면 좋을만한 사이트!ㅎㅎ