Sinkhole #0

0

Project_Sinkhole

목록 보기
1/3

Why?

2019년 당시 싱크홀로 인한 자연재해 문제가 심하였고, 이를 토대로 주변 환경요인들을 변수로 집어넣어서 싱크홀의 규모의 크기에 대한 예측모델을 만드려고 접근하려한다.


0. 개요

싱크홀의 무엇을 Y(종속변수)를 둘 것인지, 무엇을 X(독립변수)에 둘 것인지에 대해 고민한다. 먼저 싱크홀이 어디서 발생할 것인지에 대해 예측을 목표로 잡고 프로젝트를 진행한다. 따라서 logistic regression의 방법이 채택될 것이라고 생각한다.

1. 연구방향

먼저 이 연구에서 방향은 아래와 같이 진행한다.

  • 데이터 수집방법
  • 데이터 가공방법
  • 어떤 분석모델을 사용할 것인가?
  • 기대효과

1.1 데이터 수집방법

데이터의 변수들을 먼저 무엇이 있을지에 대해 팀원들과 소통을 통해 정한다.

1.2 데이터 가공방법

먼저 결측치 혹은 평균을 기준으로 어느 기준을 벗어나거나 범위를 벗어나는 Outlier 값을 방법을 정해서 탈락시키거나 데이터가 적을 시 데이터를 재가공하여 사용하려한다.

1.3 어떤 분석모델을 사용할 것인가?

종속변수를 싱크홀이 발생할 것인가? 아닌가? 로 잡을 것이니 logstic regression이 주 분석모델로 채택될 것이다. Outlier에 대해선 ols(Ordinary Least Squares) regression 방법을 사용하여 제거하려 한다.

ols package in R : olsrr package
method of ols regression : ols regression

library(dplyr)
library(ggplot2)

slope <- cor(x, y) * (sd(y) / sd(x))
intercept <- mean(y) - (slope * mean(x))

mtcars %>%
 ggplot(aes(x = disp, y = mpg)) +
 geom_point(colour = "red")

1.4 기대효과

  1. 싱크홀이 일어날 가능성이 높은 곳에 경고
  2. 신도시 혹은 건물이 지어질 곳을 지정할 때에 참고사항으로 제공 가능
profile
Good afternoon, Good evening and Good night

0개의 댓글