profile
Today is the day
post-thumbnail

Boostcamp week12 추가학습 DrQA, ORQA, DPR 논문 리뷰

관련 자세한 정보는 다음을 참조하자.1\. https://jeonsworld.github.io/NLP/orqa/2\. https://www.slideshare.net/kwanghoheo58/drqa-201708233\. https://gith

2021년 10월 25일
·
0개의 댓글
·

Boostcamp week12 Inference, Retrieval, QAtrainer

Baseline의 구조에 대해 요약하려한다.main함수에서는 다음과 같은 순서로 코드가 실행된다.Argument ParserLogger, Dataset 정의Pretrained Reader model 호출다음과 같이 실행a. eval_retrieval = True : r

2021년 10월 22일
·
0개의 댓글
·

Boostcamp week12 Retrieval Process

이제 Baseline에 대한 코드 리뷰도 끝났고, QA Task에 대한 어느정도 학습이 끝이 났다. 마무리하는 과정으로 Retrieval하는 과정을 이야기해보려한다.Sparse Retrieval에는 TF-IDF, BM25가 있다. 학습이 필요하지 않은 방법으로, 미리

2021년 10월 22일
·
0개의 댓글
·
post-thumbnail

Boostcamp week12 Linking MRC and Retrieval

기존의 MRC는 문서가 주어지고 해당 문서에서 질문에 대답하는 task였다. 앞서 봤던 Reader들이 여기에 속한다. 그러나 ODQA(Open Domain Qustion Answering) 의 경우 supporting evidence 중에 문서를 검색해서 reader

2021년 10월 20일
·
0개의 댓글
·

Boostcamp week12 day1 NLP model 정리

이 블로그를 참고해보자.

2021년 10월 18일
·
0개의 댓글
·

Boostcamp week12 day1 Pre/Post-processing functions

Pre-processing functions, Post-processing functions

2021년 10월 18일
·
0개의 댓글
·

Boostcamp week11 day5 Passage Retrieval 구현

Sprase Retrieval 구현수업시간에 배운 TF-IDF를 통해 문서들의 Sparse Representation을 구한 후, 벡터 내적을 통해 유사도를 구하여 관련된 문서를 구한다. 간단한 사용과 확장성을 위해 Class로 코드를 합쳐보자.Dense Retriev

2021년 10월 18일
·
0개의 댓글
·
post-thumbnail

Boostcamp week11 day4 Passage Retrieval -Scaling up FAISS

Dense Retrieval방법은 Query와 Passage를 vecotr 공간에 Embedding 한 뒤에 가장 가까운 거리에 임베딩 된 passage를 검색하는 방법이다. 가까운 거리를 찾는 방법으로 cosine similarity를 구하는 방법이 있는데, 이 때

2021년 10월 17일
·
0개의 댓글
·
post-thumbnail

Boostcamp week11 day3 Passage Retrieval - Dense Embedding

Passage Retrieval - Dense Embedding

2021년 10월 13일
·
0개의 댓글
·
post-thumbnail

Boostcamp week11 day3 Passage Retrieval - Sparse Embedding

Passage Retrieval - Sparse Embedding

2021년 10월 13일
·
0개의 댓글
·

Boostcamp week11 day2 MRC with BERT, T5

샘플된 KorQuAD 데이터에 대해서 BERT를 fine-tuning 시키는 코드를 실습해보며, max_train_samples 를 조절하면서 원하는 개수만큼 학습 데이터를 선택할 수 있다.제공되는 코드를 기반으로 중요한 포인트에 집중하여 공부해보세요.Point 1.

2021년 10월 13일
·
0개의 댓글
·
post-thumbnail

Boostcamp week11 day2 Generation-based MRC

1) Extraction-based mrc: 지문 (context) 내 답의 위치를 예측 ⇒ 분류 문제 (classification)2) Generation-based mrc: 주어진 지문과 질의 (question) 를 보고, 답변을 생성 ⇒ 생성 문제 (generat

2021년 10월 12일
·
0개의 댓글
·
post-thumbnail

Boostcamp week11 day2 Extraction-based MRC

질문(question)의 답변(answer)이 항상 주어진 지문(context)내에 span으로 존재 e.g. SQuAD, KorQuAD, NewsQA, Natural Questions, etc.

2021년 10월 12일
·
0개의 댓글
·
post-thumbnail

Boostcamp week11 day1

Question Answering (QA)은 다양한 종류의 질문에 대해 대답하는 인공지능을 만드는 연구 분야이다.다양한 QA 시스템 중, Open-Domain Question Answering (ODQA) 은 주어지는 지문이 따로 존재하지 않고 사전에 구축되어있는 Kn

2021년 10월 12일
·
0개의 댓글
·
post-thumbnail

Boostcamp week11 day1 level2 MRC Overview

기계독해 & 파이썬 베이직 소개기계독해란?기계독해 평가방법 언어처리를 위한 파이썬 베이직 기계독해 데이터셋 들여다 보기 추출기반 기계독해추출기반으로 기계독해 접근하기Hugging Face와 BERTBERT를 기계독해에 fine-tune 해보기생성기반 기계독해생성기반으로

2021년 10월 12일
·
0개의 댓글
·
post-thumbnail

Boostcamp level2 NLP Research

기존의 BERT는 Masking된 단어를 예측하는 방식으로 학습이 이뤄진다. 즉, Bert는 Mask 토큰을 독립적으로 판단하기 때문에 토큰 사이의 관계 자체는 학습하는 것이 불가능하다. 또, Embedding Length의 한계로 Segment간 관계를 학습하는 것이

2021년 10월 10일
·
0개의 댓글
·

Boostcamp level2 추가 실습

4\. GPT 언어모델 기반의 자연어 생성

2021년 10월 10일
·
0개의 댓글
·
post-thumbnail

Boostcamp level2 Pstage를 마치며

2주 간의 짧은 Pstage가 끝이 났다. 제공되는 강의나 실습 코드 분량이 꽤 되었기 때문에 아무래도 강의를 충실히 수행해나가기 부담되는 일정이긴 했다. 솔직하게는 후반부에는 강의를 못듣다시피 했다.약 2주, 정확하게는 12일 간의 프로젝트 진행 과정과 내가 했던 노

2021년 10월 8일
·
0개의 댓글
·
post-thumbnail

부스트캠프 week9 day4 BERT 기반 분류 모델

감정분석(Sentiment Analysis)• 문장의 긍정 또는 부정 및 중립 등 성향을 분류하는 프로세스 • 문장을 작성한 사람의 느낌, 감정 등을 분석 할 수 있기 때문에 기업에서 모니터링, 고객지원, 또는 댓글에 대한 필터링 등을 자동화하는 작업에 주로 사용• 활

2021년 9월 29일
·
0개의 댓글
·
post-thumbnail

부스트캠프 week9 추가학습 huggingface Trainer, wandb sweeps

Electra 정리

2021년 9월 29일
·
0개의 댓글
·