미래연구소 14기 수원캠퍼스 9주차 (2020.09.03)

Saulabi·2021년 11월 23일
0

미래연구소

목록 보기
9/12

미래연구소

이제 9주차 부터 진행할 프로젝트를 위한 Python 라이브러리인 Matplotlib과 pandas를 배워보았다.

이들은 주로 데이터 분석과 시각화를 위한 라이브러리로 쓰인다.

Matplotlib

  • 사용방식에 3가지가 있다.
  1. State-machine
  • pylab
  • state-machine pyplot
  1. Object-oriented

  2. 1번 + 2번

  • 기본 용어

RNN ( Recurrent Neural Network )

RNN은 여러 개의 cell 로 이루어져 있다.

  • 이전의 값을 기억하여 다음 값에 영향을 준다!

  • RNN의 종류

  1. one to one

  • Fully-Connected Layer
  1. one to many
  • Image Captioning

sequential하지 않은 data(image)를 input으로 받고 sequential한 output(text)을 출력

  1. many to one
  • Sentiment Classification

  1. many to many
  • Machine Translation

문장을 끝까지 읽은 시점부터 번역된 문장을 출력

  1. many to many
  • Video Classification

(아까와 달리 영상을 다 본 시점까지 가지 않고) 과거 부터 현재까지의 image를 통해 output값을 출력

RNN의 용어 정리

  1. sample : sample의 개수 ( 1회 train 기준 = batch_size )

  2. time_step = input_length : 어느 정도의 시간을 고려할 것인가

  3. input_dim : input data의 feature 수

  4. cell 연산

  • input 연산

  • hidden_state 연산

  • activation function

  1. output 연산
  • return_sequences = False

  • return_sequences = True

  1. 기타

  • Wxh, Whh, Why 모두 동일 layer에서는 그 값이 동일하다.
  • return_sequences를 통해 output의 dimension을 input과 같게 할 수 있고 이를 통해 Reccurent Layer를 더 붙일 수 있다.

...

  • LSTM
  • GRU

Metrics

  • Loss

  • Regreesion
  1. mean absolute error

  • 특이값 ( outlier ) 에 robust ( 덜 영향 받는다. )
  • 절댓값을 취하기 때문에 차이를 직관적으로 느낄 수 있다.
  1. root mean square error

  • 특이값에 더 가중치를 둔다.

  • MAE보다 더 보편적으로 사용한다.

  • mse에 np.sqrt를 붙이는 방식으로 구현

  • Classification ( precision, recall )

ex)

  1. Precision : positive판정이 맞을 확률

ex) 암 판정 중 실제 암일 확률

대략 : 40%

  1. Recall : positive사건이 잘 맞았는지

ex) 암 환자 중 암을 진단받을 확률

대략 : 22%

  1. Data imbalance

: 잘못된 metric -> 오류 파악하지 못함

해결 : case 맞는 metric 설정

  1. metric 결정

data balance check

  • Yes : Accuracy 사용

  • No : F1_score 사용

0개의 댓글