헷갈렸던 torch scatter 함수 이해를 위해 정리해본다. torch 공식 문서에는 scatter 에 대해 아래와 같이 나와있다. Parameters:dim (int) – the axis along which to indexindex (LongTensor) – t
1. 이게 어째서 1D AutoEncoder지? > AutoEncoder 클래스에서는 input 데이터가 1차원 벡터로 가정되어 있기 때문에 1D AutoEncoder라고 부릅니다. 이를 확인할 수 있는 부분은 레이어의 input dimension이 30으로 고정되
위 코드는 프로파일 이미지와 귀 이미지를 로드하여 전처리하는 코드입니다. 먼저 profile_images와 ear_images 리스트를 생성하고, 반복문을 사용하여 1부터 60까지의 이미지 파일을 로드하여 각 리스트에 추가합니다. tf.keras.preprocessin
1. nfft와 hoplength가 무엇을 의미하지? > 와 는 오디오 신호 분석을 위한 매개변수입니다. 는 STFT(short-time Fourier transform)에 사용되는 FFT(fast Fourier transform)의 크기를 결정합니다. FFT는 주
Box는 dict를 object처럼 사용할 수 있게 해주는 라이브러리입니다. dict에서 key로만 접근하는 것이 아니라, attribute로도 접근할 수 있게 해줍니다. 이렇게 attribute로 접근하면, 해당 attribute가 없을 때 에러가 발생하는 대신 No
단어 바꾸기문장에서 단어를 골라 유의어 사전이나 단어 임베딩을 이용해 유의어로 교체TF-IDF 점수가 낮은 단어로 교체 역변역(Back translation) 문장을 다른 언어로 번역 후, 원래의 언어로 다시 번역 의미를 보존하면서 표현을 바꿀 수 있음텍스트 표층 변
사람에 의한 평가 (Turing Test)생각할 수 있는 능력에 대한 테스트로는 문제가 있음짧은 시간 동안의 대화에서 인간 평가자를 속이기는 쉬움평가자 간의 차이, 시간과 비용, 다양성에 대해 평가혼란도(perplexity) (e.g. 혼란도 2라면 한 단어마다 2개
캐글 2021년 경진대회인 PetFinder.my - Pawpularity Contest 를 바탕으로 딥러닝 기반 컴퓨터 비전 연구 프로젝트를 진행한 내용을 정리하고자 한다. 아래 내용은 연구 기획 단계인 중간 발표 자료이다. 이미 종료된 Competition을 기반으
대학원 과정에서 진행한 딥러닝 활용 인공지능 연구제안 프로젝트 내용을 복기하는 차원에서 작성해보고자 한다. 부족한 부분이 많은 프로젝트였지만 스스로 사례를 찾아보면서 문제에 어떻게 접근해야하는지 감을 잠을 수 있었던 경험이었다. 해당 프로젝트는 주제 선정, 선행 연구,
인코더와 디코더트랜스포머는 Seq2Seq 모형 (입력 시퀀스 → 출력 시퀀스)인코더 : 입력 시퀀스를 처리하는 부분(양방향 attention), 문장의 의미 이해디코더 : 출력 시퀀스를 처리하는 부분(단방향 attention), 새로운 문장 생성GPT : OpenAI에
이전 글에 이어서 데이터 전처리와 모델링 과정을 정리하고자 한다. 4. 데이터 전처리 json파일로부터 필요한 데이터를 가져와 train, test에 넣어주었다. 데이터 전처리는 train, test 구분 없이 한번에 처리하기 위해 temp로 합쳤다. 나중에 학습할
개념주의 메커니즘만을 사용한 Seq2Seq 모형(like 번역기, 챗봇)문장 내, 문장 간 주의 메커니즘 적용모델 구조 Query-Key-Value하나의 입력값을 Query, Key, Value 세 가지 값으로 변환사전 검색과 비슷Query(질의, 검색어)와 비슷한
확률의 연쇄 규칙 $P(x_1, x_2) = P(x_2|x_1)P(x_1)$ 인과적 언어 모형(=언어모형) : 조건부 확률 형태의 언어 모형 $P(xn|x_1, x_2, …, x{n-1})$ 인공신경망 등의 모형으로 구현하기 쉬움단어를 순서대로 생성할 수 있음n-
AI HUB 에세이 글 평가 데이터를 활용하여 간단한 score 예측 모델을 만들어 보고자 한다. 에세이 글 데이터에는 초등/중등/고등학생 전학년의 글들이 있으며, 11종의 세부 평가지표에 따른 점수와 관련 메타 데이터가 존재한다. AI HUB에 공개된 AI 모델
자연어 처리의 분야 2가지자연어 이해(듣기, 읽기) : 문서 분류, 토큰 분류, 문서 유사도, 질의 응답자연어 쓰기(말하기, 쓰기) : 다음 단어 예측, 빈 칸 채우기, 요약, 번역자연어 생성의 방법규칙 기반 (e.g. 일기예보)장점: 자연어 생성의 각 과정을 세세하게
LDA와 같은 주제분석을 할 때 평가를 위한 지표로 Perplexity, 주제 응집도, 주제 다양도 등이 있다. (관련 내용에 대한 이전 블로그 글)주제 응집도는 주제를 구성하는 단어들이 서로 연관된 정도를 측정하는 것이 목적이다. 즉, 한 주제에 대해서 단어들이 얼마
단어 임베딩 : 단어를 낮은 차원의 벡터로 나타내는 것원핫 인코딩은 sparse, 용량 많이 차지, 단어 의미 고려 안함단어의 의미를 좌표로 나타내는 것 또는 수치화 → 의미가 비슷한 단어들은 비슷한 값을 가짐단어 임베딩의 다차원 공간상에서 방향에 의미가 있어야 함단어
early stoppingdropoutweight decayingL1 : 가중치를 0으로 만드는 경향L2 : 매끄럽게.. 소극적 반영L1L2batch normalization : 틀에 맞춘다.. → regularization(억제) 효과서로 다른 크기를 같은 scale
주제 분석의 방법 중 행렬 분해에 의한 방법과 확률 분포에 의한 방법이 있다. 그 중 행렬 분해애 의한 방법은 크게 LSA(Latent Semantic Analysis)와 NMF(Non-Negative Factorization)로 나눌 수 있다. LSA는 잠재 의미를