유니코드

정경섭·2023년 5월 3일
0

표준

유니코드 협회가 제정
전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준

Character Set

WBCS : Wide Byte Character Set

WBCS 란

SBCS와 DBCS가 공존하는 MBCS와는 달리 모든 코드값이 일괄적으로 16비트로 할당
확장형 문자 집합이라는 의미
Windows 뿐만 아니라, Linux, OS X, Android, IOS 등 다양한 운영체제에서 사용
대표적인 인코딩 방법으로 UTF-8이 있음

Byte 크기
모든 문자 2Byte

장점
유니코드는 지구상에서 통용되는 대부분의 문자들을 담고 있음
2Bytes를 사용하므로 65536 개의 표현 범위 덕분에 아스키 코드가 가지는 한계를 극복
처음 127 문자인 0x0080부터 0x00FE는 국제표준화 ISO8859-1의 순서와 동일하게 배열함

단점
printf , scanf 등의 함수는 유니코드와 맞지 않음.
아스키코드의 char 는 1바이트
유니코드의 char는 2바이트이기 때문
함수 사용을 위해서는 wprint등 새로이 정의된 다른 함수를 사용해야한다.

변수
문자열의 경우 L"" 사용
예)
일반C = "Hello"
유니코드 = L"Hello"

변수의 경우 앞에 w가 붙음
예)
일반 C = char
유니코드 = wchar_t

참고 : https://ikcoo.tistory.com/227

profile
Keep Building

0개의 댓글