[Preprocess] 문장 전처리

1. html Tag 확인 2. HTML Tag 삭제 3. 이모지 삭제 4. 반복 문자 삭제

2023년 2월 22일
·
0개의 댓글
·

[ML][Model] 결정트리(Decision Trees)

분류, 회귀 모두 적용 가능한 지도 학습 모델(label 존재) 설명이 중요할 때 아주 유용한 모델 학습 방법 : 데이터를 분할해가는 algorithm으로 노드를 어떻게 분할하는가에 대한 문제를 학습한다.(if-else 방식) leaf 노드가 순수해질 때까지 정보 이득이 최대가 되는 특성으로 데이터를 나누는 것을 반복한다. 각각의 leaf(말단) 노...

2022년 8월 30일
·
0개의 댓글
·

[ML][Model] 00. 목차 : 지도학습(회귀, 분류)과 비지도학습 모델 종류

지도학습 (회귀,분류)과 비지도학습 모델 종류

2022년 8월 30일
·
0개의 댓글
·

[NLP] 03. 협업 필터링 기반 추천시스템 : KNN, Matrix Factorization Principles(SGD, SVD, ALS)

사용자의 구매 패턴이나 평점을 가지고 다른 사람들의 구매 패턴, 평점을 비교하여 추천하는 방법이다. 장점 도메인 지식이 필요하지 않다.(추가적인 사용자의 개인정보나 item의 정보가 없어도 추천할 수 있다.) 사용자의 새로운 흥미를 발견하기 좋다. 추가 문맥 정보 등이 필요 없기 때문에 시작단계의 모델로 선택하기 좋다. 2006 ~ 2009 Netflix...

2022년 8월 29일
·
0개의 댓글
·

[NLP] 02. 컨텐츠 기반 추천시스템 : TF-IDF, Word2Vec(CBOW, Skip-gram)

이전 목록 : 과거 추천시스템 컨텐츠 기반 추천시스템은 사용자가 이전에 구매한 상품중에서 좋아하는 상품들과 유사한 상품들을 추천하는 방법으로 Item을 벡터 형태로 표현하여 컴퓨터가 벡터끼리의 거리를 유사도로 인식하게 하는 방법이다. TF-IDF 단어 빈도(TF)와 전체 문서에서 특정 단어가 얼마나 자주 등장하는지를 의미하는 역문서 빈도(DF)를 통해...

2022년 8월 29일
·
0개의 댓글
·

[NLP] 01. 과거의 추천시스템 : 연관상품 추천, Apriori 알고리즘, FP-Growth

연관상품, Apriori 알고리즘, FP-Growth

2022년 8월 29일
·
0개의 댓글
·

[project] QA (BertModel fine-tuning)

사용 환경 : Google Colab 언어 : Python, Pytorch validation accuracy : 0.9902 Dataset : KorQuAD 1.0 ( train - 60407 rows, validation - 5774 rows) Dataset Dataset info 01BERTQA_workflow.ipynb 기존에 pre-tr

2022년 8월 28일
·
0개의 댓글
·

[Python] copy와 deepcopy

copy : shallow copy, mutable 객체일 경우 주소값이 복사된다.<br> deepcopy : 내부 객체까지 새로운 주소값을 할당하여 값을 복사

2022년 8월 17일
·
0개의 댓글
·

[ML] Quantization (양자화)

Quantization (양자화)와 Quantization Aware Training, 동적 양자화, 정적 양자화

2022년 8월 9일
·
0개의 댓글
·

[ML] 모델 최적화, 경량화 방법

Knowledge distillation Quantization Pruning

2022년 8월 8일
·
0개의 댓글
·

[RuntimeError]: element 0 of tensors does not require grad and does not have a grad_fn

1. element 0 of tensors does not require grad and does not have a gradfn 2. Found dtype Double but expected Float 3. 'bool' object is not callable

2022년 8월 4일
·
0개의 댓글
·

[RuntimeError]: element 0 of tensors does not require grad and does not have a grad_fn

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn 기울기 계산 기능을 끈 tensor로 기울기 계산을 할 경우 발생하는 에러이다. grad_fn : 기울기 계산을 하는 function 해결 방법 : tensor를 생성할 때, requires_grad=...

2022년 8월 2일
·
0개의 댓글
·

[RuntimeError]: Expected floating point type for target with class probabilities, got Long

float 타입을 예상했는데, Long 타입의 변수가 입력되었다. 해결 : dtype을 float로 바꾸자! 정밀도가 많이 필요하지 않기 때문에 명시적으로 float16으로 선언하였다.(float로 해도 된다.) 여기서, dtype이 float64일 때, tensor은 torch.(cuda.)DoubleTensor로 인식한다. 마찬가지로 dtype이 fl...

2022년 8월 1일
·
0개의 댓글
·

dataset.load_metric('em'), squad, f1, em

datasets 패키지에 metrics도 구현되어있다는 것을 알았다. !pip install datasets 일단 설치를 한 뒤, 구현된 metric들의 목록을 보았다. `['accuracy', 'bertscore', 'bleu', 'bleurt', 'cer', 'chrf', 'codeeval', 'comet', 'competitionmath', 'c...

2022년 8월 1일
·
0개의 댓글
·

[RuntimeError]: The size of tensor a (580) must match the size of tensor b (512) at non-singleton dimension 1

tensor b의 크기가 최대 512이여야 하는데, 580의 크기를 가진 tensor가 들어왔다는 내용이다. 512에 맞게 잘라주면 된다.

2022년 8월 1일
·
0개의 댓글
·
post-thumbnail

Tensorflow, Pytorch 비교

자세한 사항은 아래를 참조해주세요! PyTorch 딥러닝 챗봇, 1.서론 [Pytorch vs. Tensorflow], wikidocs 2022년 PyTorch 와 TensorFlow 비교 | GeekNews [PyTorch] . Tensorflow(텐서플로) PyTorch(파이토치) 차이점 비교 PyTorch vs TensorFlow in 2022, fr...

2022년 7월 28일
·
0개의 댓글
·

[Error] OSError: image file is truncated

Error : 원인 image파일을 다운 받다 중간에 중지해서 img가 잘리게(crop)되었다. 내 경우는 img파일을 다운 받다가 중간에 keyInterrupt를 발생시켜 데이터를 바로 저장하지 못해서 생겼던 것으로 보인다. 해결 : 다시 data 다운 받았다. 일반적인 해결 방법 keras.preporcessor.image.imgtoarra...

2022년 7월 28일
·
0개의 댓글
·

[Python] zip파일 풀기(zipfile)

zipfile docs 바로가기 Python zip파일 풀기 zip 파일 풀기 zipfile.ZipFile : zip file 가져오기(as obj : with 구문 내에서만 작동하는 obj 변수에 저장하기) zipfilepath : zip파일이 저장되어 있는

2022년 7월 26일
·
0개의 댓글
·
post-thumbnail

[SQL] MySQL/Oracle DDL, DML사용방법(create, drop, select) - 미완

※ sprint의 application.properties에 database 연결(localhost:3306/database이름?~ 이 된다) spring.datasource.url=jdbc:mysql://localhost:3306/task_agile?useSSL=false&amp;autoReconnection=true RDB 용어 Row(행, tup...

2022년 7월 21일
·
0개의 댓글
·

BERT-QA(Question-Answering, 질문-응답) task workflow

소스코드 바로가기 task의 목표 : 주어진 질문에 대한 단락에서 답을 추출하는 것 input : 질문(Q)-단락(paragraph) 쌍(question-paragraph pair) Q : 면역 체계는 무엇입니까? paragraph : 면역 체계는 질병으로부터 보호하는 유기체 내의 다양한 생물학적 구조와 과정의 시스템입니다. 제대로 기능하려면 .... ...

2022년 7월 20일
·
0개의 댓글
·