# klue

20개의 포스트
post-thumbnail

네이버 부스트캠프 5기 14~16주차 주간 회고(ODQA 대회)

1\. 프로젝트 개요 |프로젝트 주제|Open -Domain Question Answering(ODQA) : Knowledge resource에서 주어진 지문을 찾아 이해하고 , 주어진 질의의 답변을 추론하는 task | | - | :- | |프로젝트 구현내용 | 1. Hugging Face의 Pretrained 모델과 Boost camp MRC 데이터 셋을 활용해 질문에 관련된 문서를 찾아주는 Retriever 와 관련된 문서를 읽고 적절한 답변을 찾거나 만들어 주는 Reader 를 구성하여 질의응답을 수행하는 AI 모델 구축 2\. 리더 보드 평가지표인 EM과 F1 높은 점수에도 달할 수 있도록 Retriever, Reader 수정 및 데이터 증강 , 모델링 그리고 하이퍼파라미터 튜닝을 진행 | |개발 환경 |GPU: Tesl

2023년 6월 27일
·
1개의 댓글
·
post-thumbnail

네이버 부스트캠프 5기 12~13주차 주간 회고(KlUE TC 대회)

프로젝트 개요 |프로젝트 주제 |Topic Classification(TC) 모델 구조의 변경 없이 Data-Centric 관점으로 데이터의 수정으로만 성능을 향상하여 텍스트의 주제를 분류하는 태스크 | | :-: | :- | |프로젝트 구현내용 |1. 모델 구조의 변경 없이 Data-Centric 관점으로 데이터의 수정으로만 성능을 향상 2. 뉴스 기사의 제목을 입력으로 하여 해당 기사가 어떤 카테고리에 속하는지를 예측하는 AI 모델 구축3. 평가지표인 macro F1 점수 향상을 목표로 EDA에 기반한 데이터 전처리, 증강을 진행| |개발 환경 |GPU: Tesla V100 서버 4개 (RAM32G) /GeForce RTX 4090 로컬 (RAM 24GB) 개발 Tool: PyCharm, Jupyter notebook, VS Code [서버 SSH연결], Cola

2023년 6월 9일
·
1개의 댓글
·
post-thumbnail

네이버 부스트캠프 5기 9~11주차 주간 회고(KlUE RE 대회)

1. 프로젝트 개요 |프로젝트 주제|문장 내 개체간 관계 추출(KLUE RE): 문장의 단어(Entity)에 대한 속성과 관계를 예측하는NLP Task| | :-: | :- | |프로젝트 구현내용|1\. Hugging Face의 Pretrained 모델과KLUE RE 데이터셋을 활용해 주어진 subject, object entity간의 30개 중 하나의 relation 예측하는 AI 모델 구축2\. 리더보드 평가지표인 Micro F1-Score와AUPRC 높은 점수에 도달할 수 있도록 데이터 전처리(Entity Representation), 데이터 증강, 모델링 및 하이퍼 파라미터 튜닝을 진행 | |개발 환경|GPU: Tesla V100 서버 4개 (RAM32G) /Tesla V4 (RAM52G)

2023년 5월 23일
·
1개의 댓글
·

부스트캠프 AI Tech 5기 11주차 [KLUE 3주차]

KLUE 프로젝트 회고 3주간의 KLUE 프로젝트가 끝이 났다. 최종 성적은 처음에 목표로 했던 성적에 미치지 못해서 아쉬운 느낌은 좀 있지만 새로운 시작으로서는 나쁘지 않았던 것 같다. 이번 프로젝트에서 가장 좋았던 점은 팀으로서의 협업을 경험해봤다는 점이다. 지금까지 팀으로 프로젝트를 진행할 때는 사실 이름만 팀 프로젝트일 뿐 제대로 된 협업을 한 적이 없었는데 이번에는 깃을 활용해 코드를 관리하고 실험 결과를 공유하며 협업했다. 사실 이 정도도 실제 직장에서의 협업에 비하면 매우 부족하겠지만 그래도 비슷하게나마 경험을 해봤다는데 큰 의미를 부여하고 싶다. KLUE 프로젝트에서 나의 시도 KLUE 프로젝트를 시도하며 여러 시도를 해보았는데 그 중 몇가지를 간단히 정리를 해보았다. * 문장 일부 요소 랜덤 삭제*: EDA라는 논문에서 텍스트 데이터를 증강할 수 있는 4개의 간단한 방법을 설명하고 있는데 그중 하나인 Random Deletion 기법을 시도하였

2023년 5월 19일
·
0개의 댓글
·

부스트캠프 AI Tech 5기 10주차 [KLUE 2주차]

KLUE 프로젝트 진행 이번 주에는 내내 KLUE 프로젝트를 진행했다. 문장을 입력받고 문장 내 요소 간의 관계를 예측하는 프로젝트인데 쉽지 않은 것 같다. 나는 데이터 증강 파트를 맡아서 하고 있는데 성능이 잘 오르지 않는다. 내가 적용한 증강 방법은 문장 일부 요소 랜덤 삭제와 문장 일부를 마스킹하고 MLM 모델을 사용하여 마스크를 예측해 단어를 교체하는 방법이 있다. 둘 다 테스트 단계에서는 어느 정도 유의미한 성능 상승을 보였었는데 리더보드에서는 크게 효과가 없는 느낌이다. 데이터를 건드린다는 건 상당히 어려운 일인 것 같다. 깃헙 특강 깃헙 특강은 사실 부스트캠프의 정식 이벤트는 아니지만, 멘토님 중 한 분께서 특별히 진행해주셨다. 약 3시간 가까운 시간 동안 깃허브를 활용해 팀원과 협업하는 방법을 배울 수 있었다. 단순히 깃허브에 어떤 기능이 있고 그 기능을 사용하는 방법을 배우는 것이 아니라 팀원들과 협업에 적용하려면 어떻게 해야 하는지 배우는 시간이었다

2023년 5월 15일
·
0개의 댓글
·

부스트캠프 AI Tech 5기 9주차 [KLUE 1주차]

LEVEL 2 시작 이번 주부터 LEVEL 2가 시작되었다. 8주간의 LEVEL 1 과정이 끝나고 이제 새로운 팀원들과 12주간 함께 새로운 부캠 생활을 시작하게 되는데 기대도 되면서 동시에 동시에 걱정도 되는 것 같다. 어쨌든 앞선 LEVEL 1도 즐겁게 부캠 생활을 해왔으니 앞으로 남은 부캠 생활도 즐겁게 보내고 싶다. KLUE 강의 후기 이번 주 KLUE 강의에서는 자연어처리의 기초적인 부분부터 Attention, BERT, GPT 등 핵심적인 부분까지 다양한 내용을 배울 수 있었다. 사실 이번 강의에 나왔던 내용들은 대부분 이전 주차 강의들에서 나왔던 내용들이라 이전에 배운 것을 리마인드 한다는 느낌으로 가볍게 봤던 것 같다. 9주차에도 4주차에서부터 등장했던 내용들이 계속 나온다는 것은 그만큼 기본이 중요하다는 것을 의미한다는 생각이 들고 최신 기술에 관해 탐구하는 것도 좋겠지만 기본을 꾸준히 갈고 닦아야 할 것 같다. 잡담 사실 이번 주는 근로자의

2023년 5월 15일
·
0개의 댓글
·
post-thumbnail

KLUE 데이터셋

한국어 자연어 벤치마크(Korean Language Understanding Evaluation,KLUE) Klue Task > - KLUE 링크 https://klue-benchmark.com/ 문장분류 관계 추출 문장 유사도 자연어 추론 개채명 인식 품사 태깅 질의 응답 목적형 대화 의존 구문 분석 Klue Model > 현재 공개 되있는 BERT 기반 KLUE 모델은 아래와 같다. klue 데이터셋에 훈련되었다. klue/bert-base https://huggingface.co/klue/bert-base klue/roberta-large https://huggingface.co/klue/roberta-large klue/roberta-base

2023년 5월 12일
·
0개의 댓글
·
post-thumbnail

Boost(11)

미션-1 정규표현식 연습하기 보안이 뛰어난 비밀번호인지 검증하기 (난이도: 상) 보안이 뛰어난 비밀번호는 일반적으로 아래와 같은 조건들을 만족해야 합니다. 8자리 이상 30글자 미만 영어 대문자와 소문자 최소 1개씩 포함 하나 이상의 숫자 포함 하나 이상의 특수기호 (!@#$%^&*) 포함 주어진 비밀번호들이 위의 조건들을 만족하는지 검증하고, 만족하면 True / 만족하지 않으면 False를 반환하는 함수를 작성해보도록 합시다. 욕설 삐처리하기 (1) (난이도: 하) 욕설 삐처리하기 (2) (난이도: 중) 욕설 필터링을 피하기 위해 욕설 사이에 특수기호를 넣는 케이스도 많습니다 (e.g., "미@친", "지@@랄하네"). 이런 욕설들도 처리해봅시다! 욕설 사이에 들어가는 특수기호는 @ 만으로 한정합니다. 특수기호는 최대 2번 들어갈 수 있으며, 연속해서 들어갑니다. 자소 문자 제거하기 (난이도: 하) 트위터 등의 SNS에서 추

2022년 12월 7일
·
0개의 댓글
·
post-thumbnail

M1 Part7 - "Hugging Face Transformers Installation on M1"

INTRO : M1에서 Pytorch GPU 가능 버전을 설치해봤다면, HuggingFace의 transformers를 설치해보고 싶은 마음이 들 것이다. 그런데 M1에서는 이 길이 참 쉽지 않다. 그래서 하나하나 보여주겠다.* 00부터 순서대로 잘 따라와주기를 바란다.* 00 Get Reday: Clone Conda env : conda env 만들어 둔 것이 있다면, clone으로 conda env를 복사해두자. clone한 night라는 conda env에 진입해보자. 01 rust를 설치해보자. 1) M1에 HuggingFace의 transformers를 설치하려면 필요하다고 한다. ![](https://velog.velcdn.com/images/

2022년 9월 29일
·
0개의 댓글
·
post-thumbnail

KLUE Dataset Load

Dataset Load dataset 모듈 설치 및 import KLUE dataset LOAD ynat(주제 분류), sts(의미 텍스트 유사성), nli(자연어 추론), ner(명명된 개체 인식), re(관계 추출), dp(종속성 구문 분석), mrc(기계 읽기 이해), wos(대화 상태 추적) type과 구조 확인 type과 구조 확인 데이터셋 예시 dataset 예시 [huggingface에서 klue dataset 보기](https://huggingface.co/datase

2022년 5월 23일
·
0개의 댓글
·

[Bootcamp AI Tech] week 10 회고

KLUE 대회 - Week 1 10주차에서 12주차에 걸쳐 KLUE 데이터셋을 활용한 문장 내 관계 추출 대회가 진행된다. 📝 학습 회고 소금빵 팀과 level 2의 첫 P-stage인 RE 대회를 시작했다. 우리 트랙인 nlp라 그런지 지난 대회보다 훨씬 의욕적이고 성적보단 배우기 위해 노력하면서 여러 가지를 시도하고 있다. 우리 팀은 하루에 미팅을 기본 3-4시간 정도 하고 있다. 이렇게 소통이 많은 팀 프로젝트는 거의 처음인데, 배우는 것도 그만큼 많고 공유도 잘 돼서 여러 가지로 즐겁게 하고 있다. 01. 피어세션 1) 팀원과 진도 맞춰서 강의 수강 2) Baseline 코드 뜯어보기 3) 협업 환경 조성 4) EDA 5) 코드를 우리가 쓰기 편하게 다같이 일괄 수정 (baseline 코드 다듬기) 6) 분업 또는 같이 실험 7) 실험 결과 및 코드 공유, 같이 고민하기 등을 하였다. 02. 실험 1) 여러 pre-trained 모델 비

2022년 3월 25일
·
0개의 댓글
·
post-thumbnail

KLUE -STS 벤치마크 구조 보기

KLUE-STS 벤치마크를 사용할 일이 있어서, 약간의 공부와 함께 직접 다운로드 받아보고 구조를 살펴보는 시간을 가졌다 공부하기 앞서 아래 reference를 참고해 공부했음을 밝힙니다 STS task 외에도 KLUE 벤치마크 전부분을 쉽게 설명해주니 공부에 많은 도움이 될 것 같습니다 > KLUE 벤치마크 설명 reference 1. KLUE KLUE(Korean Language Understanding Evaluation

2022년 3월 13일
·
0개의 댓글
·

[데이콘] Natural Language Inference 주제의 대회

한국어 문장 관계 분류 경진대회 Natural Language Inference Dataset 사용 (KLUE) 사용한 모델 klue/bert-base model.config 출력 결과 데이콘 첫 번재 제출 학습 조건 max_len = 128, epoch = 5 -> max_len = 90, epoch = 4에서 멈춤 모델 학습 정도 val_accuracy: 0.8263 -> val_accuracy: 0.8239 결과 6등으로 출발..! 🏃🏻‍♀️

2022년 1월 31일
·
0개의 댓글
·

NLP P stage Day 5, 10/1 Fri

5강 BERT 기반 단일 문장 분류 학습 모델 1.1 KLUE 데이터셋 문장 분류 관계 추출 문장 유사도 자연어 추론 개체명 인식 품사 태깅 질의 응답 목적형 대화 (김성동 님, DST 강의) 의존 구문 분석 1.2 의존 구문 분석 특징 단어들 사이의 관계를 분석하는 task 지배소: 의미의 중심이 되는 요소 의존소: 지배소가 갖는 의미를 보완 ex) 충무공 이순신은 조선 중기의 무신이다. 분류 규칙 교차 의존 구조는 없다. 분류 방법 Sequence labeling 방식으로 처리 단계를 나눈다. 복잡한 자연어를 그래프로 구조화해서 표현 가능 단일 문장 분류 Task 2.1 문장 분류 task 감정 분석(Sentiment Analysis) 활용 방안 혐오 발언 분류 기업 모니터링: 소셜, 리뷰 등에서 기업 이미지, 브랜드 선

2021년 10월 3일
·
0개의 댓글
·

NLP P stage Day 4, 9/30 Thu

실험 XLM-RoBERTa-base 첫 제출이어서 기대는 안했지만 점수가 낮아서 아쉬웠다. XLM-RoBERTa-large 조금 더 복잡한 모델을 사용했지만 이 역시 성능이 그리 좋지는 않았다. 4강 한국어 BERT 언어 모델 학습 1.1 BERT 모델 학습 도메인 특화 task에서는 도메인 특화 학습 데이터만 사용하는 것이 성능이 더 좋다. ex) 법률 데이터, 생리학 데이터, 금융 데이터, 댓글 데이터 Dataset → 모델에게 어떤 밥을 먹여줄 것인가 DataLoader → 모델에게 밥을 어떻게 먹여줄 것인가 Masking 작업을 진행한 뒤 BERT에 입력한다. 실습 개인정보가 제거된 데이터를 사용해야한다. BERT pre-training wordPiece tokenizer를 사용 [MASK] token을 분리하는 현상이 일어나서 addspecialtoken에 [MASK] token을 추가 BertConf

2021년 10월 3일
·
0개의 댓글
·

NLP P stage Day 3, 9/29 Wed

파라미터 개수를 알지 못할 때 파라미터 arg나 kwarg를 쓰는데 arg는 tuple 형태, kwarg는 dict 형태로 반환해준다. **kwarg는 key와 value를 모두 입력해줘야 함. 사이킷런의 f1 score를 사용하는데 반환값은 0에서 1사이의 값이고 우리가 사용할 때는 100을 곱해서 사용한다. average는 micro를 사용하는데 total true positive, false negative, false positive를 사용한다고 한다. (추가적으로 더 알아보기) Calculate metrics globally by counting the total true positives, false negatives and false positives. StratifiedKFold와 ShuffleSplit이 합쳐진 버전 StratifiedKFold는 앙상블 기법인데 벌써 앙상블을 사용한 이유?

2021년 10월 3일
·
0개의 댓글
·

NLP P stage Day 2, 9/28 Tue

input: sentence, subject entity, object entity output: relation 30개 중 하나를 예측한 predict label, 30개 클래스 각각의 확률을 제출해야하고 클래스 순서는 dictionary에 적힌 순서대로 출력한다. Data 전처리가 되어 있지 않음 Custom Baseline code 작성 시 데이터 전처리 코드를 작성해야함 Baseline code train과 eval set을 분리하고 있지 않음 → overfitting을 막기 위해서 train set과 eval set을 분리하는 code 작성해야함 평가 방식 1) no relation class를 제외한 micro F1 score 2) 모든 class에 대한 Area Under the Precision-Recall Curve(AUPRC) micro F1 score가 더 우선시 됨

2021년 10월 3일
·
0개의 댓글
·

NLP P stage Day 1, 9/27 Mon

├── code │ ├── pycache │ │ └── load_data.cpython-38.pyc │ ├── best_model │ ├── dictlabelto_num.pkl │ ├── dictnumto_label.pkl │ ├── inference.py │ ├── load_data.py │ ├── logs │ ├── prediction │ │ └── sample_submission.csv │ ├── requirements.txt │ ├── results │ └── train.py └── dataset ├── test │ └── test_data.csv └── train └── train.csv Code 설명 train.py baseline code를 학습시키기 위한 파일 results 폴더에 model관련 파일이 저장됨 inference.py

2021년 10월 3일
·
0개의 댓글
·
post-thumbnail

[부스트캠프] 9주차 회고록

왜 3주차에서 갑자기 9주차가 됐냐면... 그 사이에 블로그 정리를 미루고 미뤘기 때문이죠^/^ 오늘부터 다시 써보기로 약속...~^^ 근데 일단 그 전에 어떻게 썼었는지 기억 안 나서 ㅎㅎ 양식부터 보고 오겠슴다 P-Stage ; KLUE 09.27 Day 37 KLUE의 첫 날이 드디어! 오픈? 되었습니다 ㅎㅅㅎ 그래도 이번엔 지난 번 마스크 분류 대회와 다르게 첫날에 바로 Baseline 코드를 나눠주셨다!!!! 이거 완전 강조할 이야기가 맞음... 왜냐하면 전 대회에서는 베이스라인까지 생각할 시간을 너무 충분히 주셔서 아무것도 할 수 없었던 전... 가만히 있는 것밖에... 할 수 있는 게 없었답니다... 그래도 다행히!! 이번엔 베이스라인을 금방 나눠주셔서 ㅎㅎ 한 번 돌려보고 한 번 스윽 아 이런 거구나~ 읽을 수 있었어서 넘 좋았어요!!!! 🤣🤣 우확확 피어세션 시간에는... 제가 모더레이터를 맡아 ㅎㅅㅎ 진행했답니당.

2021년 9월 30일
·
0개의 댓글
·
post-thumbnail

KLUE 의존 구문 분석, 단일문장 분류

의존 구문 분석 지배소: 의미의 중심 의존소: 지배소가 갖는 의미를 보완(수식) 어순과 생략이 자유로운 한국어같은 언어에서 주로 연구 규칙 지배소는 후위언어 지배소는 항상 의존소보다 뒤에 위치 각 의존소와 지배소는 한 개씩 존재한다. 교차 의존 구조는 없다. 중첩은 된다. 즉, A가 누군가의 지배소라면 동시에 다른 단어의 의존소도 될 수 있다. 분류 방법 Sequence labeling을 통해 분류. 활용 복잡한 자연어 형태를 그래프로 구조화해서 표현 가능해진다. 각 대상(Entity)에 대한 정보를 추출할 수 있다. 단일 문장 분류 task 주어진 문장이 어떤 분류에 속하는지 구분한다. Sentiment Analysis(감정 분석

2021년 9월 28일
·
0개의 댓글
·