오늘 한 것

  • 테크니컬 글쓰기 특강 듣기
  • sprint challenge
  • 인프런 ROC, AUC 강의 끝까지 다 듣기

sprint wrap up :

n221

트리모델과 선형모델을 비교해봤을때 어떤점이 더 좋았나요?

  • 간결하다
  • 원핫인코딩보다 오디널 인코딩 쓸 수 있어서 좋았다
  • 표준화 안해도 되서 좋았다
  • 특성선택을 알아서 해줘서 편하다

트리모델이 가지고 있는 단점은 뭐라고 생각하나요?

  • 과적합이 되기 쉽다
  • 하이퍼파라미터가 선형회귀보다 많다
  • 변수 영향력이 선형회귀에 비해 해석이 어렵다
  • 데이터가 아주 적을때는 학습이 어렵다

기타

  • 사이킷런 Pipelines
  • 지니불순도 (트리를 만드는 기준)
  • 엔트로피 (트리를 만드는 기준)
  • 특성상호작용 (트리모델에서는 상호작용이 의미가 없어진다?) ❓
    선형모델은 각 feature가 독립적이여야 결과가 잘 나온다. 하지만 트리모델에서는 아니다! (노트 다시 확인해보기)

n222

  • 랜덤포레스트 (실무에서도 많이 사용할 중요한 알고리즘이다!)
  • 앙상블 모델에서는 전체의 트리의 모양은 확인 할 수 없다. 따라서 어떻게 이런 결과를 내는지 알 수 없다. (블랙박스 모델)
  • 배깅 : 부트스트랩한 데이터를 가지고 모델을 돌리고서 결과를 합친다
  • oobscore은 샘플이 적을때 유용하다!
  • ordinal Encoding
  • 과적합 -> 새로운 데이터에 대한 분류에 약함 / 랜덤성 -> 학습을 다양한 방법으로 하면서 새로운 데이터에 대한 학습에도 편향을 줄여주는? 역할을 하는거같아요

n223

  • 베타값이 올라갈 수록 recall값에 가중치를 줌

n224

(..)

내일 할 것

  • 새 스프린트 시작

🤚 완료하지 못한 것들

  • 블로그 정리 (precision, recall, 임계값)
  • 깃허브 커밋하는 과정 한번 찾아보기
  • decision tree 강의 듣기
profile
인문학도(였던 것)

0개의 댓글