고대 그리스 수학자 에라토스테네스가 고안한 N까지의 수열에서 소수만을 골라내는 알고리즘입니다. 소수를 대량으로 빠르게 판별할 수 있는 장점이 있습니다
Fasttext 논문(Enriching Word Vectors with Subword Information)을 리뷰해 보았습니다.
머신러닝의 학습의 판단 기준이 되는 error를 bias, variance, irreducible error의 관점에서 분해해보고 좋은 품질의 데이터가 필요한 이유와 bias 및 variance의 trade-off가 발생할 수밖에 없는 이유를 알아보겠습니다.
Random forest = Bagging + Random subspace method(feature bagging)Bagging은 Bootstrap aggregating의 약자 Bootstrap은 모집단에서 복원 추출한 sample들을 뜻합니다. 배깅 방법은 unif
확률과 관련된 공부를 하면서, semicolon(;), commam(,), vertical line(|)이 포함된 probability notation을 많이 보았습니다. 그러나 그 의미가 혼용되어 사용되는 것을 발견하고 그것을 정리하기 위해 포스팅을 작성합니다.
"Attention Is All You Need" 논문을 읽은 후 관련 자료를 정리한 내용을 바탕으로 논문 리뷰를 진행 해보겠습니다.
왜 NN의 출력층에 sigmoid, softmax 함수를 사용할까요? 이는 출력층의 값을 '확률'로서 표현하기 위한 필연적 결과입니다. 본 글에서는 logit, sigmoid, softmax의 관계에 대해서 정리해보았습니다.
최근 NLP에서 tokenizer로 많이 사용되고 있는 BPE에 대해서 코드와 함께 간단히 정리해 보았습니다.
이상화 교수님의 확률 및 통계 5강 '이산 확률 변수와 연속 확률 변수' 강의를 듣고 간단하게 내용을 정리해보도록 하겠습니다.0과 1사이의 '모든' 실수값에서 '0.5'를 뽑을 확률을 정의해보자. 0과 1사이에는 무수히 많은 숫자들이 있을 것이고. 그 중에서 0.5라는
Gini Impurity를 구하는 공식은 다음과 같다.$$Gini \\space Impurity=\\sum{i}^{k}P{i}(1-P\_{i})$$해당 feature로 감소시킨 gini impurity의 모든 tree의 평균
BERT는 자연어 처리(NLP) 분야의 언어모델(language model) 중 하나로서 기존의 symbolic(규칙/지식 기반) approach, statistical(확률/통계) approach 방법의 단점을 보완하여 자연어처리의 다양한 task에서 SOTA를 달성
어텐션 메커니즘(attention mechanism)이란, 새로운 모델이 아니라 기존 seq2seq의 장기 의존성 문제(long term dependecy problem)을 해결하기 위해 인간의 시각적 집중(visual attension) 현상을 모방한 변형 seq2s