Keras(케라스)_뉴스기사 분류

Orange_e7·2023년 5월 10일

DL

목록 보기

4/6

케라스에 포함되어 있는 로이터 데이터셋을 이용해 뉴스기사를 분류하는 과정을 구현해본다.

위와 같이 필요한 모듈을 import해준다.
num_words=10000 매개변수는 데이터에 가장 자주 등장하는 단어 10000개로 제한한다.

레이블을 벡터로 바꾸는 방법은 2가지가 있다.

첫 번째는 레이블의 리스트를 정수 tensor로 변환하는 것
[참고] 영화리뷰 분류

두 번째는 원-핫 인코딩은 레이블의 인덱스 자리는 1이고
나머지는 모두 0인 벡터이다.

vectorize_sequences 함수는 정수로 이루어진 리스트 ‘sequences’와
one-hot-incoding된 벡터의 차원 ‘dimesion’은 기본값이 10,000으로 설정.

zero(len(sequences), dimension)은 크기가 (len(sequences), dimension)이고
모든 원소가 0인 2차원 행렬로 인코딩 된다.

for문을 통해 sequence 리스트에 서 각각의 시퀀스를 반복.

enumerate() 함수는 순서가 있는 자료형(list, tuple, dictionary, string)을
입력받아 인덱스 값을 포함하는 enumerate 객체를 리턴한다.

results[ i ]에서 특정 인덱서의 위치를 1로 반환한다.

데이터를 벡터로 변환하는 것은 뉴럴 네트워크를 투과하는 과정에서
행렬끼리의 연산이 필요하기에 데이터를 벡터로 변환해주어야 한다.

vectorize_sequences함수를 사용해 각각 학습용 데이터와
테스트 데이터를 벡터로 변환하여 저장해준다.

라벨 데이터를 카테고리 데이터로 One-Hot incoding해주는 이유는?
수치에 대한 정보에 초점을 맞추기 위해서 사용한다.
예를 들어, 아이스크림의 종류를 분류하는 문제라면,
아이스크림 종류가 (메로나, 바밤바, 비비빅)이렇게 3가지 종류가 있다고 가정해 이를 라벨 데이터로 사용하게 된다면 (0,1,2)로 표현된다.
여기에서 1+1=2라고 처리를 하게되면, '바밤바+바밤바=비비빅'이라는 공식이 적용되게 된다. 각 카테고리의 특징을 반영하고 수치적 특성을 없애주기 위해 라벨 인코딩을 대신 원핫 인코딩으로 특징을 반영하고 수치적 특성을 없애주기 위해 one-hot 인코딩으로 카테고리 데이터로 변환시켜주는 것이다.