모형 청사진 그리기

Jane의 study note.·2022년 12월 21일
0

1. 활용 데이터

- 캘리포니아의 주택 가격 Dataset 활용

• 카네기멜론 대학교 통계학과에서 무료 공개
http://lib.stat.cmu.edu/datasets/
• 목표: 1990년 캘리포니아 인구조사 데이터를 통해 캘리포니아의 주택가격 모델을 만드는 것
• 설명변수: 블록위치 정보, 인구, 중간소득, 중간주택나이, 방의 숫자 등
• 반응변수: 중간주택가격

2. 문제 정의

1. 비즈니스의 목적이 정확히 무엇인지?

즉, 모델을 사용해 어떤 이익을 얻고자 하는지?
• 파악할 내용
1. 문제 구성
2. 활용 알고리즘 선택
3. 모델 평가에 사용할 성능 지표 선정
4. 모델 튜닝에 얼마나 자원 및 시간 비용을 투자할지

2. 현재 솔루션은 어떻게 구성되어 있는지?

• 파악할 내용
1. 문제 해결 방법에 대한 정보
-> 과거의 데이터 및 모형으로부터 개선할 포인트 탐색
2. 성능 지표 선정시 참고할 자료

3. 구체적인 문제 정의

• 지도 / 비지도 / 준지도 / 강화 학습 중 어떤 학습인지? -> 지도 학습 ( Labeling 되어있으므로 )
• 분류인지, 회귀인지, 혹은 또 다른 방법인지?
-> 다중 회귀 분석 ( 수치를 예측하며, 예측에 사용할 특성이 여러개 )
• 배치 학습과 온라인 학습 중 어느 것을 사용하는지? -> 배치 학습 ( 데이터가 연속적이지 않고, 충분히 작음 )

4. 성능 측정 지표 선택

• 평균 제곱근 오차 ( RMSE: Root Mean Squared Error ) : 회귀 문제의 전형적인 성능 지표

5. 가정 검사

• 머신러닝 시스템의 입력으로 들어가는 타겟 값이, 보유 데이터 타겟 값 그대로 들어가는 가정이 맞는지? -> 가격이 ‘고가, 보통, 저가’와 같은 범주형 변수로 시스템에서 활용이 되고 있는 경우에는 문제가 될 수 있음
-> 또한 시스템이 회귀가 아닌 분류 작업으로 구성됨

0개의 댓글