책 "혼자 공부하는 머신러닝+딥러닝"을 공부하며 머신러닝, 딥러닝 개념을 복습하고, 실습 예제를 따라하며 간단한 머신러닝, 딥러닝 문제를 해결해볼 수 있었다.책은 크게 머신러닝 / 딥러닝 두 파트로 구성되어 있고, 각각 현업에서 다루어질법한 머신러닝, 딥러닝 문제를 해
도미 데이터 준비빙어 데이터 준비colab 링크: https://colab.research.google.com/drive/1Y4q3ENsfxWYbnD4L7R4_pUUUBnLtqNxR?usp=sharing참고: 혼자 공부하는 머신러닝+딥러닝
colab 링크: https://colab.research.google.com/drive/1xjO2kB9KyRoamwl_wuzTPXntN8BcdIPs?usp=sharing참고: 혼자 공부하는 머신러닝+딥러닝
train_test_split() 함수 사용x축과 y축의 범위가 서로 달랐기에 기준이 안맞았던것y축이 범위가 훨씬 넓기에 y축으로 조금만 멀어져도 거리가 큰값으로 계산됨기준 맞춰주기브로드캐스팅: 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하
과소적합을 해결하기 위해선 모델을 더 복잡하게 만들어 준다
K-최근접 이웃의 한계 선형 회귀 다항 회귀 : 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업ex) '농어 길이 x 농어 높이'계수를 제곱한 값을 기준으로 regular
로지스틱 회귀: 선형 방정식을 사용한 분류 알고리즘, 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스 확률을 출력함다중 분류: 타깃 클래스가 2 개 이상인 분류 문제, 소프트맥스 함수를 사용하여 클래스 예측시그모이드 함수: 선형방정식의 출력을 0과
훈련 세트에서 랜덤하게 하나의 샘플을 골라 최적의 손실함수를 찾는 '확률적 경사 하강법'이진 분류는 로지스틱 손실 함수, 다중 분류는 크로스엔트로피 손실 함수 사용
class(타깃값)가 0 이면 레드 와인, 1이면 화이트 와인불순도: 결정 트리가 최적의 질문을 찾기 위한 기준정보이득: 부모 노드와 자식 노드의 불순도 차이 Decision Tree 모델은 정보이득이 최대화되도록 트리를 성장시킴가지치기: 자라날 수 있는 트리의 최대
Validatio Set: 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트Cross Validation: 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는
앙상블 학습: 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘랜덤 포레스트: 대표적인 결정 트리 기반의 앙상블 학습 방법, 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만듦엑스트라 트리: 랜덤포레스트와 비슷하게 결정 트
비지도 학습: 훈련 데이터에 타깃이 없는 머신러닝의 한 종류군집: 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습클러스터: 군집 알고리즘으로 모은 샘플 그룹
K-MEANS 알고리즘은 처음에 랜덤하게 클러스터 중심을 정하고 클러스터를 만듦, 클러스터의 중심을 이동하고 다시 클러스터를 만드는 식으로 반복해 최적의 클러스터를 구성함클러스터 중심: K-MEANS 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값, centroid
차원 축소: 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류, 저장공간을 줄이고 시각화하기 쉽고 다른 알고리즘의 성능을 높일 수 있음PCA(주성분 분석): 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향(주성분)을 찾는 방법
밀집층: 가장 간단한 인공 신경망의 층, 뉴런들이 모두 연결되어 있어 완전연결층이라고도 부름, 출력층에 밀집층을 사용할 때는 분류하려는 클래스와 동일한 개수의 뉴런 사용원-핫 인코딩: 정숫값을 배열에서 해당 정수 위치의 원소만 1이고 나머지는 모두 0으로 변환, 다중
DNN(심층 신경망): 2개 이상의 층을 포함한 신경망, 딥러닝과 같은 의미Relu 함수: 이미지 분류 모델의 은닉층에 많이 사용하는 활성화 함수, 시그모이드 함수는 층이 많을수록 활성화 함수의 양 끝에서 변화가 작기 때문에 학습이 어려워져, 문제가 없고 계산이 간단한
Drop out(드롭아웃): 은닉층에 있는 뉴런의 출력을 랜덤하게 껴서 오버피팅을 막는 기법, 드롭아웃은 훈련 중에 적용되며 평가나 예측에서는 적용하지 않음Call back (콜백): 케라스 모델을 훈련하는 도중 어떤 작업을 수행할 수 있도록 도와주는 도구, 최상의 모
합성곱: 밀집층과 비슷하게 입력과 가중치를 곱하고 절편을 더하는 선형계산, 밀집층과 달리 각 합성곱은 입력 전체가 아니라 일부만 사용하여 선형 계산을 수행함Feature map: 합성곱 층이나 풀링 층의 출력 배열, 필터 하나가 하나의 특성맵을 만듦Padding: 합성
합성곱 신경망 모델로 이미지 분류하기  함수를 사용하여 정의하고 출력은 마지막 층의 출력으로 정의함가중치 분포 시각화함수형 APIfeature map 출력
주요 개념 Sequential Data(순차 데이터): 텍스트나 시계열 데이터와 같이 순서에 의미가 있는 데이터 ex) 글, 대화, 일자별 판매 실적 RNN(순환 신경망): 순차 데이터에 잘 맞는 인공 신경망의 한 종류, 순차 데이터를 처리하기위해 고안된 순환층
LSTM 셀: 타임스텝이 긴 데이터를 효과적으로 학습하기 위해 고안된 순환층, '입력 게이트, 삭제 게이트, 출력 게이트' 역할을 하는 작은셀이 포함되어 있음LSTM 셀은 은닉 상태(Hidden state) 외에 셀 상태를 출력함, 셀 상태는 다음 층으로 전달되지 않으