회귀회귀는 임의의 수치를 예측하는 문제로 타깃값도 임의의 수치다.K-최근접 이웃 회귀가장 가까운 이웃 샘플을 찾고 샘플들의 타깃값을 평균으로 예측한다.결정계수 (R^2)대표적인 회귀 문제의 성능 측정 도구로 1에 가까울수록 좋고 , 0에 가까울수록 성능이 나쁜 모델이다
선형 회귀특성과 타깃 사이의 관계를 가장 잘 나타내는 선형방정식을 찾는다.특성이 한개면 직선 방정식이 된다.특성과 타킷 사이의 관계는 선형방정식의 계수 또는 가중치에 저장된다.모델 파라미터머신러닝 모델이 특성에서 학습한 파라미터를 말한다.다항 회귀다항식을 사용해 특성과
다중회귀여러개의 특성을 사용하는 회귀모델이다. 특성이 많을수록 선형 모델의 성능이 좋아진다.특성 공학주어진 특성을 조합해서 새로운 특성을 만드는 일련의 작업과정이다.릿지규제가 있는 선형 회귀 모델이다. 선형 모델의 계수를 작게 만들어 과대적합을 완화시킨다. 보통 릿자
로지스틱 회귀 선형방정식을 사용한 분류 알고리즘이다. 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스 확률을 출력할 수 있다. 다중 분류 타깃 클래스가 2개 이상인 분류문제이다. 로지스틱 회귀는 다중 분류를 위해 소프트맥스 함수를 사용하여 클래스를 예측한다. 시
확률적 경사 하강법 훈련세트에서 샘플을 하나씩 꺼내 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘이다. 샘플을 여러개씩 사용하면 미니배치 경사하강법, 샘플을 한번에 다 사용하면 배치 경사 하강법이다. 손실 함수 확률적 경사 하강법이 최적화할 대상이다. 1)이진
결정 트리yes/no 에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘이다.예측 과정을 이해하기쉽고 성능도 뛰어나다.불순도결정 트리가 최적의 질문을 찾기 위한 기준이다. 사이킷런은 지니 불순도와 엔트로피 불순도를 제공한다.정보 이득부모노드와 자식노드의 불순도의
검증 세트하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트교차 검증훈련세트를 여러 폴드로 나눈 다음 한 폴드가 검증세트의 역할을 하고 나머지 폴드에서는 모델 훈련을 한다. 모든 폴드에 대해서 검증
앙상블 학습 더 좋은 예측 결과를 만들기 위해 여러개의 모델을 훈련하는 머신러닝 알고리즘이다. 랜덤 포레스트 대표적인 결정 트리 기반의 앙상블 학습 방법이다.부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징이다. 엑스트라 트리 랜덤
패션 mnist 데이터 불러오기이미지 확인샘플의 타깃값 확인np.unique() : 레이블 당 샘플 개수 확인0~9 까지 레이블마다 6000개의 샘플이 들어있음0-255 픽셀값을 0-1 사이의 픽셀값을 가지도록 전처리SGDClassifier는 2차원 입력을 다루지못함
심층 신경망2개 이상의 층을 포함한 신경망이다.렐루 함수이미지 분류 모델의 은닉층에 많이 사용하는 활성화 함수이다. 옵티마이저신경망의 가중치와 절편을 학습하기 위한 알고리즘이다. 대표적으로 SGD,네스테로프 모멘텀,RMSprop,Adam 등이 있다.fashion mni
드롭아웃은닉층에 있는 뉴런의 출력을 랜덤하게 꺼서 과대적합을 막는 기법이다. 드롭아웃은 훈련중에 적용되며 평가나 예측에서는 적용하지 않는다. 텐서플로에서는 자동으로 처리해준다.콜백케라스 모델을 훈련하는 도중 어떤 작업을 수행할 수 있도록 도와주는 도구이다. 대표적으로
8-1,2합성곱밀집층과 비슷하게 입력과 가중치를 곱하고 절편을 더하는 선형 계산이다. 밀집층과 다르게 각 합성곱은 입력 전체가 아니라 일부만 사용하여 선형 계산을 수행한다.필터밀집층으로 보면 뉴런에 해당하는 것이다. 필터의 가중치와 절편을 종종 커널이라고 부르기도 한다
순차 데이터 텍스트나 시계열 데이터와 같이 순서에 의미가 있는 데이터이다. 대표적으로 글, 대화, 일자별 날씨 등이 있다.순환 신경망순차 데이터에 잘맞는 인공신경망의 한 종류이다. 순환층을 셀이라고 부르고 셀의 출력을 은닉 상태라고 부른다. 은닉상태는 다음층으로 전달될
LSTM타임스텝이 긴 데이터를 효과적으로 학습하기위해 고안된 순환층이다. 입력/삭제/출력 게이트 역할을 하는 작은 셀이 포함되있다.LSTM은닉상태와 셀상태를 출력한다. 셀상태는 다음층으로 전달되지않으며 현재 셀에서만 순환한다.GRULSTM의 간소화 버전으로 성능도 조오