ASCII가 아닌 문자열의 인덱싱

mohadang·2023년 2월 19일
0

System

목록 보기
3/12
post-thumbnail

인덱싱 퍼포먼스

UTF-8 문자열은 다양한 문자를 표현할 수 있다는 장점이 있지만 성능면에서 단점이 발생한다.

단순한 인덱싱(예: my_text[3]으로 네 번째 문자를 가져옴)으로는 더 이상 빠르게(O(1) 상수 시간으로) 문자를 찾을 수 없다
바로 앞의 글자가 가변 길이를 가질 수 있어, 바이트 열에서 4번째 문자가 실제로 시작하는 위치가 달라질 수도 있다.
utf-8 바이트 열을 하나하나 돌면서 각각의 유니코드 문자가 실제로 어디에서 시작하는지 찾아야 한다(O(n) 선형 시간).

profile
mohadang

0개의 댓글