Today I Learned
오늘은 지하철역 EDA에 대해서 더 심화로 들어갔다.
수도권 지하철역 - 전세가격 EDA
할당: @ChoonB
기본 subway 관련 가설
EDA용 피처 생성 방법
- train+test해서 위도경도가 같은 행에 대해 같은 apt_idx 부여
- BallTree에 Haversine 방식 적용해서 위도경도값이 주어졌을 때 radian으로 거리 계산 코드 작성 issues/3 comment 참고
- nearest_subway_distance | nearest_subway_idx | num_subway_within_1km | list_subway_idx_within_1km | category_interchange_within_1km | num_subway_within_500m | list_subway_idx_within_500m | category_interchange_within_500m 피처 생성
- category_interchange_within~ 피처는 (0: 주변에 지하철역 없음, 1: 지하철역 1개 이상이지만 환승역 없음, 2: 지하철역 1개 이상이면서 환승역 포함) 의 기준으로 카테고리를 생성
가설검증
1. 지하철역과 거리가 가까울 수록 가격이 높을 것이다. (검증완)
- 10km까지 500m 단위로 클래스를 나눠 평균 전세가격과 평균 평당가격을 봐도 가까울 수록 가격이 높게 형성된다.

2. 가장 가까운 지하철이 무슨 역인지가 가격에 영향이 있을 것이다. (아직 미검증)
- 어떤 역이 근처에있을 때 가장 비싼지 추정해봤으나 아직 좀 더 조사가 필요하다.

3. 특정 거리안에 몇개의 지하철이 있는지가 가격에 영향이 있을 것이다. (검증완)
-
전세가격과 1km이내 지하철역의 수는 상관계수 0.314987, 평당가격과는 0.419536가 나온다.
500m로 할 시 상관계수는 0.221344, 0.311769로 오히려 떨어진다.
-
1km이내 지하철역 수를 클래스로 만들어 평균 전세가격과 평균 평당가격을 봤을때는 강한 상관관계가 보인다.
평당가격이 오히려 더 설명이 잘되어 보인다.


- boxplot으로도 강한 연관성을 확인할 수 있다.

4. subway info에서 좌표가 여러번 나오는 경우는 환승역이고, 근처 환승역이 있는지 여부가 가격에 영향을 끼칠 것이다.
- 주변(1km든, 500m든)에 환승역일경우 환승역이 아닐때보다 평균 전세(및 평당)가격이 높다.
- 주변에 환승역이 아닌 일반역이 있는 경우, 역이 없을 때보다 평균 전세(및 평당) 가격이 높다.

회고
-
추후 외부 행정구역 데이터를 공급해준다고 하니 큰 변화가 있을 것 같다.
-
index를 제외한 나머지 열이 모두 동일한 행들을 중복데이터로 여겨서 뺄지, 의미있는 데이터로 볼지에 대해 논의를 해봐야할 것 같다.
-
연휴 시작이지만 늘어지지말고 코테 준비 열심히해보자!!