# tokenizer

26개의 포스트

java StringMethod_trim, indexOf, replace, split, Token, valueOf

trim에 대해 알아보자.trimd은 지정된 문자열에서 앞,뒤 공백을 제거해주는 것이다.주의할점은 글자 사이의 공백은 제거가 불가능하다.결과indexOf에 대해 알아보자.indexOf는 주어진 문자열에서 해당하는 문자가 몇번째에 있는지 알려주는 명령어이다.결과repla

2023년 10월 26일
·
0개의 댓글
·

CS와 Node.js 3. 컴파일러 이론, 정규표현식, Tokenizer/Lexer/Parser

CS의 꽃은 여러송이지만, 그중에서도 컴파일러 이론은 최근 핫한 자연어 처리에서까지 활용되는 아주 중요한 분야입니다. 문학를 보며 학부시절 고통받았던 기억이 되살아났는데.. 단단한 개발자가 되려면 이겨냅시다!\[컴파일러 이론] Tokenizer, Lexer, Parse

2023년 10월 19일
·
0개의 댓글
·
post-thumbnail

NLP_Day5

rnn 과 lstm3! = 3 x 2 x 1길 찾기 알고리즘 네이버 지도의 경우 중간 경유지 5개 최대=> 정답과 최대한 가깝게max depth원핫인코딩 : 공간 낭비, 단어의 의미를 이해할 수 없음=>밀집벡터 : 공간낭비x, 실수로 표현 (620 -> 10 Dense

2023년 7월 29일
·
0개의 댓글
·
post-thumbnail

0703

파일 읽어오기 / 예외처리 try ~ catch파일 읽어오기fileName⇒ 불러올 파일 위치FileReader : 읽고싶은 파일을 사용가능하게 불러오기BufferedReader : 파일을 읽기 (한줄씩)br.readLine(); : 한줄씩 읽는 메서드예외처리(파일을

2023년 7월 4일
·
1개의 댓글
·
post-thumbnail

0703

ArithmeticException : 산수적 예외 처리NullPointerException : 생성하지 않고 클래스의 메서드를 호출하는 예외 처리IOException : input, output 관련 예외 처리Split은 문자열을 분리해서 배열로 만듦Tokenizer

2023년 7월 4일
·
0개의 댓글
·

자바-13일차(3) 이클립스

문자열 분리에 사용String 문자열="red,magenta,gray,pink,yellow";String 객체의 split을 이용한 분리String 배열명\[]=문자열.split(분리기준);문자열 분리에 사용StringTokeneizer 객체를 이용한 분리StringT

2023년 7월 3일
·
0개의 댓글
·

gpt tokenizer

openai의 웹 tokenizer는 버전 선택이 되지않아 라이브러리 호출로 사용했다.코드와 결과는 다음과 같다.한국어 문장을 넣었을 때는 2와 3.5는 차이가 크고, 3.5와 4는 차이가 없었다.영어 문장을 넣었을 때는 2와 3.5가 큰 차이가 나지 않았다.결론영어로

2023년 6월 19일
·
0개의 댓글
·
post-thumbnail

[Colab] ValueError: Couldn't instantiate the backend tokenizer from one of...

Colab에서 transformers의 AutoTokenzier를 사용할 때 다음과 같은 에러가 발생하였다.원인은 에러메세지 중 3번에 해당하는 것으로 sentencepiece가 설치되지 않았기 때문이다.사용하려고 하는 토크나이저가 sentencepiece 기반이기 때

2023년 6월 6일
·
0개의 댓글
·

GPT 토큰-이득 (수정중)

토큰이득 방법론

2023년 6월 2일
·
0개의 댓글
·

한글 vocab 만들기

BERT나 GPT에서 BPE라는 알고리즘을 사용하는데 이는 한글의 발음 체계를 고려하지 않음ex) ㅎ, 하, 한 이 전부 다른 Byte로 인식되는 문제점이 발생형태소에 기반한 vocab을 만들고 이를 활용하여 한국어 모델을 만들어 성능을 비교해보는 것이 목표형태소 분석

2023년 5월 7일
·
0개의 댓글
·
post-thumbnail

BEATs: Audio Pre-Training with Acoustic Tokenizers 리뷰

해당 논문은 2022년에 microsoft사에서 발표하였다.https://arxiv.org/abs/2212.09058먼저 간략히 요약 하자면기존의 reconstruction loss를 사용하는 Audio SSL 모델과 달리 self-distilled token

2023년 5월 2일
·
0개의 댓글
·
post-thumbnail

[CS] XML Parser

XML은 정형화된 데이터를 표현하는데 많이 사용하는 방식이다.간단한 구조의 HTML5, PLIST 같은 XML 문서를 분석해서 DOM 구조로 만드는 XML Parser를 직접 만들어보자.

2023년 1월 26일
·
0개의 댓글
·
post-thumbnail

Tokenizer, Lexer, Parser

컴파일러란 고급언어로 작성된 프로그램을 번역해 기계어로된 프로그램을 만들어 주는 역활을 한다.이때 구문분석 -> 최적화 -> 코드생성 -> 링킹의 과정을 거치는데, 구문분석 과정에서 소스코드는 Tokenizer, Lexer, Parser를 차례로 거친다. 이포스팅에선

2023년 1월 25일
·
0개의 댓글
·

BPE(Byte Pair Encoding)란?

Q: BPE란?

2022년 12월 12일
·
0개의 댓글
·

텍스트 전처리

1. 차원의 저주 1) 단어 수준으로 토큰화 > sent 0 : ['I', 'am', 'a', 'student.'] sent 1 : ['J', 'is', 'the', 'alphabet', 'that', 'follows', 'i.'] sent 2 : ['Is', 'sh

2022년 11월 22일
·
0개의 댓글
·

Tokenizer 자연어처리

from tensorflow.keras.preprocessing.sequence import pad_sequencesfrom tensorflow.keras.preprocessing.text import Tokenizernum_words = 100padding_size

2022년 11월 17일
·
0개의 댓글
·
post-thumbnail

[huggingface course] 2-4. Tokenizers

과제를 위해서 허깅페이스 튜토리얼 강의를 보다가 한국어 버전이 없어서 공부겸 간단하게 번역본을 정리합니다.제가 임의로 번역한거라 뜻이 이상할수도 있고 귀찮으면 번역기 돌리는 부분도 많을거라 내용 이상할수도 있습니다.Tokenizers토크나이저는 NLP 파이프라인의 핵심

2022년 9월 12일
·
0개의 댓글
·

[CS224n #2] BPE: Neural machine translation of rare words with subword units (ACL, 2016)

Task : NMT에서의 Open-vocabulary problem Approach : Byte pair encoding 기법을 이용한 Subword unitsResults : rare & OOV에서 성능 좋다.review 전 나의 의문!Fast text의 subwor

2022년 9월 7일
·
0개의 댓글
·

Tokenizer Filter

전처리 필터를 거쳐 토크나이저 필터로 문서가 넘어오면 해당 텍스트는 Tokneizer의 특성에 맞게 적절히 분해된다.분석기에서 어떠한 토크나이저를 사용하느냐에 따라 분석기의 전체적인 성격이 결정됨일반적으로 사용하는 토크나이저대부분의 기호를 만나면 토큰으로 나눈다공백을

2022년 7월 6일
·
0개의 댓글
·
post-thumbnail

[TIL] 텍스트 전처리

subword Tokenization > 학습데이터에서 보지 못했던 새로운 단어가 나타난다면? example train data: low, new, newer test data: lower 이러한 케이스에서는 low, new, er로 train data를 잘 분리

2022년 3월 20일
·
0개의 댓글
·