나이, 요금을 제회한 칼럼들의 그래프를 그려보았다.
먼저 Survived에서 0이 사망, 1이 생존을 나타내는데 사망 비율이 더 높았다.
객실 등급은 3등급이 가장 많았고, 성별은 남성이 여성보다 많았다.
타이타닉에 탑승한 형제자매/배우자 수와 부모/자녀 수는 0명이 가장 많았고, 승선지는 Southampton이 가장 많았다.
나이, 요금 그래프를 보면 20대 탑승객이 가장 많았으며, 10-100 사이의 요금을 내고 탑승한 승객이 대부분이었다.
상관관계를 그래프로 나타내었을 때, 의외로 나이는 생존과 크게 연관이 없었다.
가장 생존여부와 관련이 높았던 항목은 성별이었다.
모델 학습에 필요가 없다고 판단되는 "PassengerId", "Ticket", "Name", "Cabin" 칼럼을 drop 해주었다.
그리고 다시 결측치를 조회해보니 Age와 Embarked 칼럼에 여전히 결측치가 존재했다.
따라서 Age는 보간법으로 결측치를 처리하였고, Embarked는 최빈값으로 넣어주었다.
범주형 칼럼인 Pclass, Sex, Embarked는 원-핫인코딩을 해주었다.
왼쪽으로 치우친 모양을 보인 Fare, Age는 로그를 취해준뒤, Age, Fare, Parch, SibSp는 정규화했다.
은닉층 뉴런수를 32로 설정하고, learning-rate는 0.01, epoch는 150으로 주었을 때 결과이다.
여기서 뉴런수를 epoch를 줄이고 늘려보았을때, 정확도가 크게 변화가 없거나 오히려 낮아지는 경향을 보였다.
오차와 정확도 그래프를 보면 epoch가 진행될수록 오차율은 낮아지고, 정확도는 올라가는 경향을 보이고 있다.
최종 정확도가 약 0.82 나온것을 보면 분류 성능이 괜찮은 모델을 만든것 같다.
![]() | ![]() |
---|