### 알고리즘
: X*n, 함수, 공식, n은 '파라미터' 라고 불림.
### 학습
: 위의 알고리즘에서 n을 찾는다. data(Input, Output)에 맞춰서
### 최적화
: 최적의 n을 찾는 알고리즘을 찾는 것.
모델을 만드는 과정
1. 모델을 정하여 수식화 한다.
2. 모델을 데이터를 이용해 학습(Train) 시킨다.
- 모델을 데이터의 패턴에 맞춘다. (fit)
3. 학습된 모델이 얼마나 데이터 패턴을 잘 표현하는지 평가한다.(Test)
=> Scikit-learn 패키지.
: 지도학습 / 비지도학습- label( y) 값의 유무에 따라 나뉘어진다.
- 분류 : 범주가 있는 값을 예측. 이진 분류 / 다중 분류
- 회귀 : 범주가 정해지지 않는 값을 예측, 최대한 목표값에 근사한 결과를 가져오는 모델 구현,
정확하게 동일한 값 도출은 힘들다.
- 군집 : 비슷한 유형의 데이터 그룹을 찾아 경향성을 파악한다.
- 차원축소 : 너무 많은 feature를 가진 데이터 셋의 feature 수를
예측에 영향을 최대한 주지 않고 줄이는 것.
이것은 데이터 시각화를 할 때 용이하게 하거나
모델의 성능을 높이기 위해 진행한다.
✅ 비지도학습은 최종 예측 모델의 완성이 목적이기 보다는 중간 단계 과정에서 학습하는 경우가 많다.
주로 지도학습이 최종 예측 모델인 경우가 많다.
Business understanding
Data understanding
Data preparation
Modeling
Evaluation
Deployment
✅ 이후, 수업에서 Scikit-learn
라이브러리를 주로 사용하여 학습할 것.
scikit-learn 패키지의 일부로, 데이터셋을 제공하는 도구입니다.
반면에 pd.DataFrame은 pandas라는 라이브러리에 속하는 데이터 구조입니다. pandas는 데이터 분석과 조작을 위한 강력한 도구로 널리 사용됩니다.
두 개의 차이점은 다음과 같습니다:
- sklearn.datasets는 미리 정의된 데이터셋을 제공하며, 주로 머신러닝 알고리즘의 테스트 및 실험에 사용됩니다.
pd.DataFrame은 주로 사용자가 직접 데이터를 입력하거나 파일로부터 데이터를 읽어와서 저장하는 데 사용됩니다.- sklearn.datasets는 일반적으로 NumPy 배열 또는 희소 행렬의 형태로 데이터를 반환합니다. 이러한 형식은 scikit-learn과 호환되는 형식입니다.
반면, pd.DataFrame은 테이블 형식의 데이터를 제공하며, 열과 행으로 구성된 구조로 데이터를 다룹니다.
✅ 따라서, sklearn.datasets는 머신러닝 알고리즘을 테스트하고 평가하기 위한 표준화된 데이터셋을 제공하고, pd.DataFrame은 데이터를 저장하고 다루는 데 사용됩니다.
scikit-learn 패키지의 함수로, 데이터셋을 훈련 세트와 테스트 세트로 나누는 데 사용됩니다. 주로 머신러닝 모델을 훈련하고 평가하는 데에 활용됩니다.
train_test_split 함수는 다음과 같은 매개변수는
✅ train_test_split 함수는 주어진 데이터를 훈련 세트와 테스트 세트로 나누어 각각의 데이터와 레이블을 반환합니다.
반환된 데이터는 원래 데이터셋의 일부분으로, 훈련 데이터는 모델을 훈련하는 데 사용되고, 테스트 데이터는 모델을 평가하는 데 사용됩니다.
전체 데이터에서 train과 test 데이터로 무작위로 나누고 여러 모델에 학습하여 테스트할 때,
무작위로 데이터를 뽑아서 각기 다른 데이터 셋으로 모델들을 테스트하는 것은 각각의 모델들의 신뢰성과 연관이 없어지기 때문에
무작위로 뽑는 데이터 셋들을 random_state를 통해 모두가 일정하게 무작위로 뽑힌 데이터 셋을 사용하게 함으로써 예측 모델들의 평가의 신뢰성을 주기 위함이다.