DNN 예측 모델

김지예·2023년 6월 14일

AI / 딥러닝

목록 보기

1/1

DNN이 뭐야?

은닉층을 2개이상 지닌 학습 방법
컴퓨터가 스스로 분류 레이블을 만들어 내고 공간을 왜곡하고 데이터를 구분짓는 과정을 반복하여 최적의 구분선을 도출
많은 데이터와 반복학습, 사전학습과 오류역전파 기법을 통해 현재 널리 사용되고 있음
DNN을 응용한 알고리즘이 바로 CNN, RNN인 것이고 이 외에도 LSTM, GRU 등

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# DNN 모델 생성
model_dnn = Sequential()
model_dnn.add(Dense(64, activation='relu', input_shape=(3,)))  # 입력층
model_dnn.add(Dense(64, activation='relu'))  # 은닉층
model_dnn.add(Dense(1))  # 출력층

# 모델 컴파일
model_dnn.compile(optimizer='adam', loss='mean_squared_error')

# 모델 학습
model_dnn.fit(X_train, y_train, epochs=10, batch_size=32)

위의 코드를 설명해줘

Sequential 모델을 생성합니다. Sequential 모델은 층을 선형으로 연결하여 구성하는 가장 간단한 형태의 모델입니다.
model_dnn.add(Dense(64, activation='relu', input_shape=(3,))) 코드는 입력층을 추가하는 부분입니다. 입력층에는 Dense 층을 사용하며, 활성화 함수로는 ReLU를 설정하였습니다. input_shape=(3,)는 입력 데이터의 형태를 나타냅니다. 여기서는 (LoT, pH, Temp) 3개의 독립변수를 입력으로 받습니다.
model_dnn.add(Dense(64, activation='relu')) 코드는 은닉층을 추가하는 부분입니다. 위 코드에서는 하나의 은닉층을 추가하였고, 은닉층의 뉴런 수는 64로 설정하였습니다.
model_dnn.add(Dense(1)) 코드는 출력층을 추가하는 부분입니다. 여기서는 종속변수인 Process를 예측하기 때문에 출력층에는 하나의 뉴런을 사용하였습니다.
model_dnn.compile(optimizer='adam', loss='mean_squared_error') 코드는 모델을 컴파일하는 부분입니다.

optimizer='adam': Adam 옵티마이저를 사용합니다. Adam은 경사 하강법의 한 종류로, 학습 속도를 조절하면서 모델의 가중치를 업데이트하는 최적화 알고리즘입니다. Adam은 보통 다양한 유형의 신경망에서 잘 동작하며, 수렴 속도가 빠르고 메모리 요구 사항이 적습니다.
loss='mean_squared_error': 평균 제곱 오차(MSE)를 손실 함수로 사용합니다. MSE는 예측값과 실제값의 차이의 제곱을 평균한 값으로, 회귀 문제에서 널리 사용되는 손실 함수입니다. MSE를 최소화하는 방향으로 모델이 학습됩니다. 다른 회귀 지표인 MAE(Mean Absolute Error)나 RMAE(Root Mean Absolute Error)도 사용할 수 있지만, 이 경우에는 MSE를 선택한 것입니다.

model_dnn.fit(X_train, y_train, epochs=10, batch_size=32) 코드는 모델을 학습하는 부분입니다. X_train은 입력 데이터, y_train은 실제값인 종속변수를 나타냅니다. epochs는 전체 데이터셋을 몇 번 반복하여 학습할지를 나타내는 매개변수이고, batch_size는 한 번에 학습할 데이터 샘플의 개수를 나타내는 매개변수입니다.

왜 뉴런수를 64로 했어?

뉴런 수를 결정하는 것은 모델의 복잡성과 학습 능력 사이의 균형을 찾는 과정입니다. 일반적으로 뉴런 수는 모델의 용량(capacity)을 나타내며, 뉴런 수가 많을수록 모델은 더 복잡한 패턴을 학습할 수 있습니다.

64개의 뉴런을 사용한 것은 실험적인 선택이며, 데이터셋의 복잡성과 모델의 성능에 따라 조정될 수 있습니다. 뉴런 수를 적게 하면 모델이 간단해지고 과적합(overfitting) 위험이 줄어들 수 있지만, 데이터의 표현 능력이 제한될 수도 있습니다. 반대로, 뉴런 수를 많이 사용하면 모델이 더 복잡한 패턴을 학습할 수 있지만, 과적합의 위험이 커질 수 있습니다.

따라서 뉴런 수는 데이터셋의 특성과 모델의 성능을 고려하여 조정해야 합니다. 실험을 통해 최적의 뉴런 수를 찾아가는 것이 일반적인 접근법입니다.

sequential와 relu는 뭐야? 다른 종류는 뭐가 있어?

relu는 Rectified Linear Unit의 약자로, 인공 신경망에서 가장 널리 사용되는 활성화 함수 중 하나입니다. relu 함수는 입력값이 0보다 작을 경우 0을 출력하고, 0보다 큰 경우에는 입력값을 그대로 출력합니다. 이 함수는 비선형성을 가지며, 신경망의 표현 능력을 향상시키는데 도움을 줍니다.

다른 종류의 활성화 함수로는 시그모이드(sigmoid), 하이퍼볼릭 탄젠트(tanh), 리키 렐루(leaky relu), 소프트맥스(softmax) 등이 있습니다. - 시그모이드 함수는 0과 1 사이의 값을 출력하여 이진 분류 문제에 주로 사용됩니다.

하이퍼볼릭 탄젠트 함수는 -1과 1 사이의 값을 출력하여 활성화 함수로 많이 사용됩니다.
리키 렐루 함수는 음수 영역에서 작은 기울기를 가지는 relu 함수로, 죽은 렐루(dead relu) 문제를 해결하는데 도움을 줍니다.
소프트맥스 함수는 다중 클래스 분류 문제에서 확률 분포를 출력하는데 사용됩니다.

Sequential은 케라스(Keras) 모델의 일종으로, 순차적인 신경망 모델을 만들기 위해 사용됩니다. Sequential 모델은 여러 개의 레이어를 순차적으로 쌓아 구성할 수 있으며, 입력부터 출력까지 데이터가 한 방향으로 흐르는 구조입니다.
다른 모델 구조로는 함수형 API(functional API)와 서브클래싱 API(subclassing API) 등이 있습니다.

함수형 API는 더 복잡한 모델 구조를 구성할 수 있으며,
서브클래싱 API는 사용자 정의 모델을 만들기 위해 사용됩니다.

epoches는 뭐야?

'epochs'는 딥러닝 모델에서 학습 데이터셋을 반복하여 훈련하는 횟수를 의미합니다. 한 번의 epoch는 전체 학습 데이터셋이 모델에 한 번 통과하는 것을 의미합니다.

각 epoch마다 모델은 입력 데이터에 대한 예측을 생성하고, 이 예측과 실제값 사이의 오차를 최소화하기 위해 가중치를 업데이트합니다. 이러한 반복적인 과정을 통해 모델은 학습 데이터에 대한 예측 성능을 향상시키며, 주어진 문제에 최적화된 가중치를 찾아냅니다.

epoch의 크기는 모델 학습에 사용되는 데이터의 양과 복잡성, 모델 구조 등에 따라 달라질 수 있습니다. 일반적으로 epoch를 늘릴수록 모델은 더 많은 훈련 데이터를 활용하여 학습하게 되며, 그만큼 성능 향상의 가능성이 있습니다. 그러나 epoch를 지나치게 늘리면 모델이 학습 데이터에 과도하게 적합될 수 있으며, 이는 테스트 데이터나 실제 환경에서의 예측 성능을 저하시킬 수 있습니다.

적절한 epoch 수는 모델과 데이터에 따라 다를 수 있으므로, 실험을 통해 최적의 epoch 값을 찾는 것이 중요합니다. 일반적으로 학습 과정을 모니터링하면서 검증 데이터에 대한 성능이 향상되다가 더 이상 개선되지 않는 시점을 확인하고, 그때의 epoch 수를 선택하는 것이 일반적인 접근 방식입니다.

김지예

배낭여행자 도로시, 주변을 살피며 걷는 중입니다. (소개글을 참고해 주세요 찡긋)