DB연결시 텍스트 데이터를 취급하는 과정에서 Database Encoding과 Database Collation이 있다.
제대로 사용하기 전에 어느 역할을 하는지 알아야하기 때문에, 이 글을 작성하게 되었다.
❓MySQL/MariaDb database management Tool (for MacOS)
설치는 App Store에서 진행
실생활에서 사용되는 텍스트기반의 데이터를 출력하기 위해서 등장하게 된 케이스
UTF-8 문자 집합은 1~4바이트 까지 저장이 가능하다.
character set : 글자 자체에 대한 모양과 인코딩에 대한 정의
collation : 정해져 있는 인코딩 기반으로 글자끼리 비교 하는 것
utf8mb4
- UTF(Unicode Transformation Format)
Unicode 문자를 컴퓨터에서 저장하고 표현하기 위한 인코딩 방식 중 하나- MB(MultyByte)
기본적으로 1~3바이트로 문자를 인코딩하는데 한글/중국어/이모지의 경우 3byte를 넘어서 인코딩이 되지 않는 결과가 발생했다. 이 때 등장한게 UTF8MB4. UTF8MB4는 다중 바이트 문자를 처리하도록 설계 된 UTF8의 확장 버전
MB4는 4byte를 지원한다는 의미.
_unicode_ci
- unicode
유니코드 표준에 따라 문자열을 정렬하고 비교하는 방식.
서로 다른 언어나 문자를 정렬하거나 비교할 때 사용된다.- ci
대소문자를 무시하고 비교할 때 대소문자를 구분하지 않음을 나타냄
ci가 없는 경우는 대소문자를 구분한다.