책 "혼자 공부하는 머신러닝+딥러닝"을 공부하며 머신러닝, 딥러닝 개념을 복습하고, 실습 예제를 따라하며 간단한 머신러닝, 딥러닝 문제를 해결해볼 수 있었다.책은 크게 머신러닝 / 딥러닝 두 파트로 구성되어 있고, 각각 현업에서 다루어질법한 머신러닝, 딥러닝 문제를 해
도미 데이터 준비빙어 데이터 준비colab 링크: https://colab.research.google.com/drive/1Y4q3ENsfxWYbnD4L7R4_pUUUBnLtqNxR?usp=sharing참고: 혼자 공부하는 머신러닝+딥러닝
colab 링크: https://colab.research.google.com/drive/1xjO2kB9KyRoamwl_wuzTPXntN8BcdIPs?usp=sharing참고: 혼자 공부하는 머신러닝+딥러닝
train_test_split() 함수 사용x축과 y축의 범위가 서로 달랐기에 기준이 안맞았던것y축이 범위가 훨씬 넓기에 y축으로 조금만 멀어져도 거리가 큰값으로 계산됨기준 맞춰주기브로드캐스팅: 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하
과소적합을 해결하기 위해선 모델을 더 복잡하게 만들어 준다
K-최근접 이웃의 한계 선형 회귀 다항 회귀 ![](https://velog.velcdn.com/images/jailies/post/9e9f8a96-2a73-496e-be12-f84a
1개의 특성을 사용했을 때 선형회귀 모델은 직선을 학습하고,2개의 특성을 사용하면 평면을 학습함Feature Engineering(특성 공학): 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업ex) '농어 길이 x 농어 높이'계수를 제곱한 값을 기준으로 regular
로지스틱 회귀: 선형 방정식을 사용한 분류 알고리즘, 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스 확률을 출력함다중 분류: 타깃 클래스가 2 개 이상인 분류 문제, 소프트맥스 함수를 사용하여 클래스 예측시그모이드 함수: 선형방정식의 출력을 0과
훈련 세트에서 랜덤하게 하나의 샘플을 골라 최적의 손실함수를 찾는 '확률적 경사 하강법'이진 분류는 로지스틱 손실 함수, 다중 분류는 크로스엔트로피 손실 함수 사용
class(타깃값)가 0 이면 레드 와인, 1이면 화이트 와인불순도: 결정 트리가 최적의 질문을 찾기 위한 기준정보이득: 부모 노드와 자식 노드의 불순도 차이 Decision Tree 모델은 정보이득이 최대화되도록 트리를 성장시킴가지치기: 자라날 수 있는 트리의 최대
Validatio Set: 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트Cross Validation: 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는
앙상블 학습: 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘랜덤 포레스트: 대표적인 결정 트리 기반의 앙상블 학습 방법, 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만듦엑스트라 트리: 랜덤포레스트와 비슷하게 결정 트
비지도 학습: 훈련 데이터에 타깃이 없는 머신러닝의 한 종류군집: 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습클러스터: 군집 알고리즘으로 모은 샘플 그룹
K-MEANS 알고리즘은 처음에 랜덤하게 클러스터 중심을 정하고 클러스터를 만듦, 클러스터의 중심을 이동하고 다시 클러스터를 만드는 식으로 반복해 최적의 클러스터를 구성함클러스터 중심: K-MEANS 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값, centroid
차원 축소: 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류, 저장공간을 줄이고 시각화하기 쉽고 다른 알고리즘의 성능을 높일 수 있음PCA(주성분 분석): 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향(주성분)을 찾는 방법
밀집층: 가장 간단한 인공 신경망의 층, 뉴런들이 모두 연결되어 있어 완전연결층이라고도 부름, 출력층에 밀집층을 사용할 때는 분류하려는 클래스와 동일한 개수의 뉴런 사용원-핫 인코딩: 정숫값을 배열에서 해당 정수 위치의 원소만 1이고 나머지는 모두 0으로 변환, 다중
DNN(심층 신경망): 2개 이상의 층을 포함한 신경망, 딥러닝과 같은 의미Relu 함수: 이미지 분류 모델의 은닉층에 많이 사용하는 활성화 함수, 시그모이드 함수는 층이 많을수록 활성화 함수의 양 끝에서 변화가 작기 때문에 학습이 어려워져, 문제가 없고 계산이 간단한
Drop out(드롭아웃): 은닉층에 있는 뉴런의 출력을 랜덤하게 껴서 오버피팅을 막는 기법, 드롭아웃은 훈련 중에 적용되며 평가나 예측에서는 적용하지 않음Call back (콜백): 케라스 모델을 훈련하는 도중 어떤 작업을 수행할 수 있도록 도와주는 도구, 최상의 모
합성곱: 밀집층과 비슷하게 입력과 가중치를 곱하고 절편을 더하는 선형계산, 밀집층과 달리 각 합성곱은 입력 전체가 아니라 일부만 사용하여 선형 계산을 수행함Feature map: 합성곱 층이나 풀링 층의 출력 배열, 필터 하나가 하나의 특성맵을 만듦Padding: 합성
합성곱 신경망 모델로 이미지 분류하기 ![](https://velog.velcdn.com/images/jailies/post/5fc22e9e-de55-4e2c-90c2-18c53126b8c1
함수형 API: 케라스에서 신경망 모델을 만드는 방법, Model 클래스에 모델의 입력과 출력을 지정함, 입력은 Input() 함수를 사용하여 정의하고 출력은 마지막 층의 출력으로 정의함가중치 분포 시각화함수형 APIfeature map 출력
주요 개념 Sequential Data(순차 데이터): 텍스트나 시계열 데이터와 같이 순서에 의미가 있는 데이터 ex) 글, 대화, 일자별 판매 실적 RNN(순환 신경망): 순차 데이터에 잘 맞는 인공 신경망의 한 종류, 순차 데이터를 처리하기위해 고안된 순환층
LSTM 셀: 타임스텝이 긴 데이터를 효과적으로 학습하기 위해 고안된 순환층, '입력 게이트, 삭제 게이트, 출력 게이트' 역할을 하는 작은셀이 포함되어 있음LSTM 셀은 은닉 상태(Hidden state) 외에 셀 상태를 출력함, 셀 상태는 다음 층으로 전달되지 않으