# hyperparameter

[TIL] 교사학습 (분류)
[!abstract]+ Curriculum > 1. 교사 학습 (분류) 기초 > 2. 하이퍼 파라미터와 튜닝 1 > 3. 하이퍼 파라미터와 튜닝 2 > - 첨삭문제 교사 학습 (분류) 기초 이항분리 : 선형분리, 비선형분리 다항분리 분류문제의 예측까지의 과정 |700 데이터 준비 방법 분류 데이터 만들기 #sk/make/classification 라이브러리 내장 데이터셋 #sk/dataset 주된 모델들 로지스틱 회귀 #classification/logistic |500 선형분리 가능한 데이터의 경계선을 학습으로 찾는 모델. 용도 경계선이 직선이기 때문에 이항분리 등의 클래스가 적은 데이터에 사용. 또한 강수확률 등의 데이터가 클래스로 분류되

[CS231n] Lecture 6: Training Neural Networks I 정리
지난 시간 복습 지난 시간에 함수를 Computational graph로 표현하는 방법을 배움 어떤 함수든 위 그림처럼 표현할 수 있음 또한, Neural Network에 대해서 배웠음 Linear Layer가 있고, 중간 중간에 비선형 연산자(activation function)을 끼워 넣으면서 여러 층으로 쌓음 C

BOHB: Robust and Efficient Hyperparameter Optimization at Scale
논문 번역 > 저자 Stefan Falkner, Aaron Klein, Frank Hutter, Department of Computer Science, University of Freiburg, Freiburg, Germany. Correspondence to: Stefan Falkner . Abstract > 최신의 딥러닝 메소드들은 많은 하이퍼파라미터에 매우 예민하고, 굉장히 긴 학습시간을 가지기 때문에 vanilla Bayesian하이퍼 파라미터 최적화는 일반적으로도 계산상으로도 불가능 합니다. > 또한, random search기반 bandit-based configuration evaluation(설정평가)는 guidance(지침)이 부족하고, 빠르게 최적의 파라미터를 얻을 수 없습니다. > 여기서 이 논문은 Bayesian최적화의 장점과 bandit-based의 장점인

Hyperparameter Tuning
uniform하게 hyperparameter를 선택해서 그 중 좋은 것을 쓸 수 있지만 α입장에서는 그 α에 대해 다른 값을 5개밖에 보여주지 않은 것이 된다. 5개만 동일한 α에 대해 검사했기 때문에 보여주지 않은 값 중 더 좋은 것이 있었을 수도 있음.. 랜덤하게 값을 선택해서 사용하면 α에서 더 많은 값을 검사할 수 있다. 하지만 운이 안좋으면 한쪽으로 sample이 몰릴 수 있다는 단점이 있다. 그래서 랜덤하게 선택한 값 중 제일 좋은 것을 써도 좋지만 그 주변을 다시 탐색해볼 수도 있다. 어찌됐든 직접 계산해보

Problem Setting and Regularization
training을 하기 위해서 결정해야 할 것들이 정말 많지만 각 hyperparameter 사이에 dependency가 있기 때문에 guess가 매우 어렵다. 그렇기 때문에 실제로 machine learning은 굉장히 반복적인 작업이다. Dataset 좋은 choice를 위해 training sets, development sets, test sets를 이용할 수 있다. development set을 validation set이라고 부르기도 한다. 어떤 dataset이 주어졌을 때, 전체 sample에서 70%를 training set, 30%를 test set으로 나누거나 60%를 training set, 20%를 development set, 20%를 test set으로 나누는 것이 일종의 co

Deep Neural Network
Deep Neural Network 일반적으로 hidden layer의 개수가 2개인 network부터 deep neural network라고 한다. layer의 개수가 많아질수록 만들 수 있는 network의 경우의 수가 많아진다. 각 층에 퍼셉트론을 몇 개 쓸 것인가에 대한 선택지가 늘기 때문이다. notation에 대해 설명해본다. L : layer의 개수. hidden layer와 output layer의 개수를 합친 것이다. 위의 경우 L은 4이다. n[l] : layer l에 있는 unit의 개수이다. 퍼셉트론의 개수를 의미한다. a[l] : layer l의 activation들이다. x : network의 input y hat : network의

ray로 transformers 튜닝을 해보자
Ray 병렬/분산 환경 어플리케이션 구축을 도와주는 라이브러리 Python,Java 지원 Parameter tune 등 다양한 기능 제공 ray_document

AIB: N224 Model Selection
1. Model Selection 1.1 Cross Validation 1.1.1 왜 하는가? 데이터의 크기가 작은 경우, Cross Validaion이어느 정도 해결해줄 수 있다. 서로 다른 Machine Learning 모델을 비교해주고, 얼마나 성능을 낼 수 있을지에 대해 추측해볼 수 있다. 여러 번의 검증 결과를 종합해서 일반화를 할 때의 성능을 확인할 수 있다. 최적화와 일반화의 차이는?(면접 단골 질문) 최적화(optimization): 파라미터(모델)와 하이퍼파라미터(연구자)를 조정해서 모델의 성능을 높이는 것. 학습할 때 하이퍼파라미터를 성능이 가장 좋은 성능을 만드는 것. 일반화(generalization): 검증 데이터나 새로운 데이터에서도 학습 데이터와 비슷한 성능
Hyperparameter
하이퍼파라미터(Hyperparameter) 튜닝 수작업 Grid Search Random Search Bayesian Methods K 폴드 교차검증 K개의 데이터 폴드 세트를 만들어 K번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법 ex) 1~4번째 등분을 학습 5번째를 검증 데이터세트로 설정하고 평가 수행 4번째를 검중 나머지는 학습 위와 같은 방식으로 5번 진행 Key word check Activation Functions(활성화 함수) Optimizer(옵티마이저) Number of Layers Number of Neurons Batch Size(배치 사이즈) Dropout(드롭아웃) Learning Rate(학습률) Number of Epochs