유니코드

Jiwon·2022년 4월 21일
0

Web

목록 보기
10/11

유니코드를 '사용'하는 인코딩 방식 : UTF-8, UTF-16

유니코드

숫자와 글자
즉, 키와 값이 1:1로 매핑된 형태의 코드.

아스키코드로 표현할 수 없는 문자들을 유니코드라는 이름 아래
전 세계의 모든 문자를 특정 숫자(키)와 1:1로 매핑한 것.

U+ 라는 접두어가 붙어있으면 유니코드 라는 의미.

아스키코드의 0x41 = A
-> 유니코드표 : U+0041

UTF-8, UTF-16 같은 인코딩 방식은
이 유니코드표의 숫자 키들을 어떻게 표현하느냐에 따라 달린 것.

UTF-8
가변바이트 사용.
1바이트로 표현이 충분한 A같은 경우는 0x41로 표현.

UTF-16
16비트
즉, 2바이트로 표현하기 때문에, 0x0041로 표현.

UTF-32
4바이트로 표현하기 때문에, 0x00000041로 표현.

따라서 UTF-8의 표현 방식이 대체로 더욱 효율적.
세계적으로 UTF-8표준으로 많이 쓰이는 추세이다.

EUC-KR, CP949

2바이트로 한글을 표현할 수 있게 만든 방식.
일부 한자 등도 포함.
아스키값은 그대로 1바이트로 표현

C-KR
오래전부터 쓰임
이 인코딩에서 표현할 수 없는 한글이 있어
마이크로소프트에서 코드페이지949를 사용하기 시작.
->CP949(EUC-KR의 확장)


참고사이트

profile
과연 나는 ?

0개의 댓글