DataBase Collation : utf8mb4_unicode_ci 가 의미하는 것

ouneno·2023년 9월 7일
0

Etc

목록 보기
9/20

DB연결시 텍스트 데이터를 취급하는 과정에서 Database Encoding과 Database Collation이 있다.

제대로 사용하기 전에 어느 역할을 하는지 알아야하기 때문에, 이 글을 작성하게 되었다.


💻 사용한 DB Tool - Sequel Ace

MySQL/MariaDb database management Tool (for MacOS)
설치는 App Store에서 진행


Encoding(인코딩)에 대하여

UTF-8

실생활에서 사용되는 텍스트기반의 데이터를 출력하기 위해서 등장하게 된 케이스
UTF-8 문자 집합은 1~4바이트 까지 저장이 가능하다.


❓Collation(정렬)

character set : 글자 자체에 대한 모양과 인코딩에 대한 정의
collation : 정해져 있는 인코딩 기반으로 글자끼리 비교 하는 것

  • 동일한 문자에 대한 비교
  • 정렬의 방식
  • 문자열 함수의 결과는 어떻게 달라지는지
  • 검색시 어떤 결과를 주는지

❓utf8mb4_unicode_ci

utf8mb4

  • UTF(Unicode Transformation Format)
    Unicode 문자를 컴퓨터에서 저장하고 표현하기 위한 인코딩 방식 중 하나
  • MB(MultyByte)
    기본적으로 1~3바이트로 문자를 인코딩하는데 한글/중국어/이모지의 경우 3byte를 넘어서 인코딩이 되지 않는 결과가 발생했다. 이 때 등장한게 UTF8MB4. UTF8MB4는 다중 바이트 문자를 처리하도록 설계 된 UTF8의 확장 버전
    MB4는 4byte를 지원한다는 의미.

_unicode_ci

  • unicode
    유니코드 표준에 따라 문자열을 정렬하고 비교하는 방식.
    서로 다른 언어나 문자를 정렬하거나 비교할 때 사용된다.
  • ci
    대소문자를 무시하고 비교할 때 대소문자를 구분하지 않음을 나타냄
    ci가 없는 경우는 대소문자를 구분한다.
profile
지속적인 성장을 추구하는 새싹 개발자입니다🌱

0개의 댓글