[알고리즘] BOJ 14426 접두사 찾기 #Python

김상현·2022년 10월 16일

목록 보기

211/301

[BOJ] 14426 접두사 찾기 바로가기

📍 문제

문자열 S의 접두사란 S의 가장 앞에서부터 부분 문자열을 의미한다. 예를 들어, S = "codeplus"의 접두사는 "code", "co", "codepl", "codeplus"가 있고, "plus", "s", "cude", "crud"는 접두사가 아니다.

총 N개의 문자열로 이루어진 집합 S가 주어진다.

입력으로 주어지는 M개의 문자열 중에서 집합 S에 포함되어 있는 문자열 중 적어도 하나의 접두사인 것의 개수를 구하는 프로그램을 작성하시오.

📍 입력

첫째 줄에 문자열의 개수 N과 M (1 ≤ N ≤ 10,000, 1 ≤ M ≤ 10,000)이 주어진다.

다음 N개의 줄에는 집합 S에 포함되어 있는 문자열이 주어진다.

다음 M개의 줄에는 검사해야 하는 문자열이 주어진다.

입력으로 주어지는 문자열은 알파벳 소문자로만 이루어져 있으며, 길이는 500을 넘지 않는다. 집합 S에 같은 문자열이 여러 번 주어지는 경우는 없다.

📍 출력

첫째 줄에 M개의 문자열 중에 총 몇 개가 포함되어 있는 문자열 중 적어도 하나의 접두사인지 출력한다.

📍 풀이

💡 고찰

N 개의 문자열 중에서 word 와 가장 유사한 문자를 bisect() 함수를 통해 찾는다.
- bisect() 함수를 이용하기 위해서는 N 개의 문자열을 저장한 배열 S 는 오름차순으로 정렬되어 있어야 한다.
파이썬에서 문자열에 사용할 수 있는 startswith() 를 사용하여 접두사를 확인할 수 있다.

📌 문제 풀이

✏️ 1. 사용자로부터 값을 입력 받는다.

N, M = map(int,stdin.readline().split())
S = sorted([stdin.readline().rstrip() for _ in range(N)])
words = [stdin.readline().rstrip() for _ in range(M)]

첫째 줄에 문자열의 개수 N 과 M 을 입력 받는다.
다음 N 개의 줄에는 집합 S 에 포함되어 있는 문자열을 입력받는다.
- 집합 S 는 bisect() 함수를 이용하기 위해 오름차순으로 정렬한다.
다음 M개의 줄에는 검사해야 하는 문자열을 입력받는다.

✏️ 2. M 개의 문자열 중 집합 S에 문자열의 접두사인 문자열의 개수를 계산한다.

answer = 0
for word in words:
    idx = min(N-1, bisect(S,word)) # word와 값이 가장 유사한 문자열 인덱스
    # 접두사인지 확인
    if S[idx].startswith(word):
        answer += 1
    # 접두사인지 확인
    elif S[idx-1].startswith(word):
        answer += 1
    return answer

오름차순으로 정렬된 집합 S 에서 word 와 가장 유사한 값을 가진 문자열의 인덱스 값을 bisect() 함수를 통해 얻는다.
인덱스 값에 해당하는 문자열과 문자 word를 startswith() 함수를 통해 접두사인지 확인하여 맞을 경우 answer 의 값을 1 증가시킨다.

✍ 코드

from sys import stdin
from bisect import bisect

def solution(N, S, words):
    answer = 0
    for word in words:
        idx = min(N-1, bisect(S,word)) # word와 값이 가장 유사한 문자열 인덱스
        # 접두사인지 확인
        if S[idx].startswith(word):
            answer += 1
        # 접두사인지 확인
        elif S[idx-1].startswith(word):
            answer += 1
    return answer

# input
N, M = map(int,stdin.readline().split())
S = sorted([stdin.readline().rstrip() for _ in range(N)])
words = [stdin.readline().rstrip() for _ in range(M)]

# result
result = solution(N, S, words)
print(result)