# ordinalencoding

2개의 포스트
post-thumbnail

머신러닝 - House prices (Feature Engineering)

House Price > https://www.kaggle.com/c/house-prices-advanced-regression-techniques 라이브러리 & 데이터 로드 EDA info() describe() histplot 수치 데이터의 분포 확인, 첨도를 통해 너무 뾰족하지 않은지 -> 한 쪽에 데이터가 몰려있는지 확인 왜도 -> 너무 한쪽에 치우쳐져 있지 않은지 확인 정규분포 형태 확인 막대가 떨어져 있다면 수치데이터가 아니라 범주형 데이터가 아닌지 확인 Feat

2022년 11월 17일
·
0개의 댓글
·

[TIL] 210823

오늘 한 것 테크니컬 글쓰기 특강 듣기 sprint challenge 인프런 ROC, AUC 강의 끝까지 다 듣기 sprint wrap up : n221 트리모델과 선형모델을 비교해봤을때 어떤점이 더 좋았나요? 간결하다 원핫인코딩보다 오디널 인코딩 쓸 수 있어서 좋았다 표준화 안해도 되서 좋았다 특성선택을 알아서 해줘서 편하다 트리모델이 가지고 있는 단점은 뭐라고 생각하나요? 과적합이 되기 쉽다 하이퍼파라미터가 선형회귀보다 많다 변수 영향력이 선형회귀에 비해 해석이 어렵다 데이터가 아주 적을때는 학습이 어렵다 기타 사이킷런 Pipelines 지니불순도 (트리를 만드는 기준) 엔트로피 (트리를 만드는 기준) 특성상호작용 (트리모델에서는 상호작용이 의미가 없어진다?) ❓ 선형모델은 각 feature가 독립적이여야 결과가 잘 나온다. 하지만 트리모델에서는 아니다! (노트 다시 확인해보기) n2

2021년 8월 23일
·
0개의 댓글
·