Viterbi 알고리즘

JunMyung Lee·2024년 1월 26일

알고리즘

목록 보기

15/15

Viterbi Algorithm?

Viterbi 알고리즘은 숨겨진 마르코프 모델(Hidden Markov Model, HMM)에서 가장 가능성이 높은 상태(sequence of states)를 찾아내는 알고리즘. 이 알고리즘은 동적 프로그래밍을 기반으로 하며, 특정 조건에서 최적의 경로를 찾는 데 사용. 여기서 '최적의 경로'란 관측된 이벤트 시퀀스가 주어졌을 때, 가장 높은 확률로 발생할 수 있는 숨겨진 상태 시퀀스를 의미.

Viterbi 알고리즘 단계

초기화(Initialization): 각 상태의 시작 확률과 첫 번째 관측에 대한 각 상태의 확률을 초기화
재귀(Recursion): 각 시간 단계에서 가능한 모든 경로를 고려하고, 각 상태에 도달하기 위한 최적의 경로와 그 확률을 계산. 이전 단계에서 계산된 최적의 경로의 확률에 현재 단계에서의 전이 확률과 관측 확률을 곱하여 갱신.
종결(Termination): 마지막 관측 후에 가장 높은 확률을 가진 경로를 선택. 이는 최종 상태에서의 최대 확률을 가지는 경로를 역추적하여 조회.
경로 역추적(Path backtracking): 종결 단계에서 선택된 최종 상태로부터 시작하여, 각 단계에서 선택된 최적의 경로를 역으로 추적. 이를 통해 최종적으로 가장 가능성이 높은 상태 시퀀스를 획득.

Viterbi 알고리즘은 각 단계에서 모든 가능한 경로를 고려하지 않고, 각 상태에 대해서만 최적의 경로를 저장하기 때문에 계산 효율이 매우 높다. 이러한 특성 때문에 음성 인식, DNA 서열 분석, 언어 모델링 등 다양한 분야에서 널리 사용되고 있다.

Viterbi 알고리즘과 형태소분석

형태소 분석에서 Viterbi 알고리즘을 사용하는 것은 주어진 문장을 가장 적합한 형태소로 분석하는 과정을 말한다.
한국어는 교착어의 특성을 가지고 있어, 한 단어 안에 여러 형태소가 결합하여 다양한 의미와 문법적 기능을 나타냅니다. 따라서 형태소 분석은 한국어 처리에 있어 매우 중요한 단계다.

Viterbi 알고리즘을 이용한 형태소 분석은 다음과 같은 과정을 거치게 된다:

모델 준비: 형태소 분석을 위해서는 먼저 언어 모델이 필요. 이 모델에는 각 형태소의 사용 빈도, 형태소 간 전이 확률(하나의 형태소가 다른 형태소로 이어질 확률), 그리고 형태소가 특정 위치에서 얼마나 자주 나타나는지에 대한 정보가 포함되어 있다.
문장 입력: 사용자로부터 입력받은 문장을 바탕으로 형태소 분석을 시작.
가능한 형태소 조합 탐색: 입력된 문장을 구성하는 각 글자에 대해 가능한 모든 형태소 후보를 생성.
최적 경로 계산: Viterbi 알고리즘을 사용하여 각 단계에서 가능한 형태소 조합 중 가장 높은 확률을 가지는 경로를 조회. 이는 동적 프로그래밍을 통해 각 단계에서의 최적의 결정을 메모리에 저장하면서 진행.
결과 도출: 마지막 글자까지 분석을 마치면, 가장 확률이 높은 형태소의 조합을 최종적인 분석 결과로 도출.

Viterbi 알고리즘은 각 단계에서 최적의 선택을 기록하며 진행하기 때문에, 전체 문장을 통틀어 가장 높은 확률을 가지는 형태소의 조합을 효율적으로 찾을 수 있다. 이는 특히 복잡한 구조를 가진 한국어에서 정확한 형태소 분석을 가능하게 한다.

예시

나는밥을먹는다에 대한 Viterbi 알고리즘:

문장 입력: "나는밥을먹는다"라는 문장이 입력됩니다.
가능한 형태소 조합 탐색: 문장을 구성하는 각 글자에 대해 가능한 형태소 후보를 생성. 예를 들어, '나' 다음에 올 수 있는 형태소는 '는', '는밥', '는밥을' 등.
최적 경로 계산: 각 단계에서 가능한 형태소 조합 중 가장 높은 확률을 가지는 경로를 조회. 예를 들어, '나' 다음에 '는'이 오는 것이 '는밥'이 오는 것보다 확률이 높다면, '나는'을 선택. 이런 식으로 문장 전체에 대해 최적의 형태소 조합을 조회.
결과 도출: 마지막 글자까지 분석을 마치면, 가장 확률이 높은 형태소의 조합인 나는/밥을/먹는다를 최종적인 분석 결과로 도출

이 과정에서 각 단계별로 가장 높은 확률을 가지는 형태소 조합을 선택하고, 이전 단계의 결과를 바탕으로 다음 단계의 최적의 형태소를 선택하는 방식으로 진행. 이렇게 동적 프로그래밍을 통해 전체 문장에 대한 최적의 형태소 분석 결과를 효율적으로 얻을 수 있다

JunMyung Lee

11년차 검색개발자 입니다. 여러 지식과 함께 실제 서비스를 운영 하면서 발생한 이슈에 대해서 정리하고 공유하고자 합니다.

이전 포스트

Viterbi 알고리즘

알고리즘

Viterbi Algorithm?

Viterbi 알고리즘 단계

Viterbi 알고리즘과 형태소분석

예시

리트코드 - Longest Increasing Subsequence

0개의 댓글