[서론] 소개

JJangnaa·2023년 5월 10일
0

1. 목적

 : 통계기반 데이터 분석

2. 진행 기간

 : 2023.03.15 ~ 2023.03.20 (평일 기준 3일)

3. 데이터 셋

데이터 이름데이터 설명

1

내장 데이터 state data sets 내 stat.x77

미국 50개 주에 대한 통계데이터
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
2CSSE 제공 COVID-19전세계 코로나 발생 현황
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
3

내장 데이터 mtcars

32 종 자동차의 10가지 디자인과 성능특성과 연료소모량

4. 분석 과정

1) stat.x77

 : 미국 50개 주에 대한 통계데이터에 대한 다중회귀분석

내용

1

데이터 load 후 DataFrame으로 타입 변환,
Life Exp 및 Life.Exp 변수를 HS Grad 및 HS.Grad로 변경
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
2회귀분석 실시 (종속변수: Life.Exp, 독립변수: 나머지 변수)
& 결과에 대해 해석
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
3바로 앞 진행됐던 회귀모형에서 Income, Illiteracy, Area 변수를 제외하고 회귀분석 실시
& 결과에 대해 해석
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
4Life.Exp 변수를 종속 변수로 HS.Grad와 Murder 변수를 예측변수로 설정하여 회귀분석 실시
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
5전 인구의 55%가 고졸이고 살인비율이 10만명당 8명일 때 Life.Exp 결과값 예측
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
6

4번 처럼 2개 독립변수 및 1개 종속변수 데이터와 fit된 회귀평면을 3D 그래프로 시각화

2) CSSE 제공 COVID-19

 - 전세계 코로나 발생 현황 데이터에 대한 시계열 분석
 - 대상 기간: 2020.03 ~ 2022.07 (일별 데이터)

내용

1

추세선 확인
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
24가지 변동요인 분해
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
3시각화
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
4

결과 해석

3) mtcars

 - 32종 자동차의 10가지 디자인과 성능특성과 연료소모량 데이터에 대한 로지스틱 회귀분석
 - 종속변수: 엔진(vs), 독립변수: 연비(mpg) 및 변속기종(am)

내용

1

데이터 호출
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
2로지스틱 회귀분석 실행 후 회귀모델 확인
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
3로지스틱 회귀모델 요약정보 확인
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
4로지스틱 회귀식
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
5

결과 해석

profile
귀여운게 좋아

0개의 댓글