DFS / BFS

  • DFS(Depth-First Search): 깊이 우선 탐색이라 부르며, 그래프에서 싶은 부분을 우선적으로 탐색하는 알고리즘.
  • BFS(Breadth-First Search): 너비 우선 탐색이라 부르며, 가까운 노드부터 탐색하는 알고리즘

하지만 DFS / BFS를 알기 전에 스택(Stack), 큐(Queue), 재귀 함수(Recursive Function)을 먼저 알야아 한다.

스택(Stack)이란?

스택은 박스 쌓기에 비유할 수 있다. 맨 아래에서부터 위로 차곡차곡 쌓는다. 아래의 박스를 치우기 위해서 위에 있는 박스를 먼저 내려야 한다. 이러한 구조를 선입후출(First In Last Out)구조라 한다.

파이썬에서 스택을 사용할 때 별도의 라이브러리를 사용할 필요가 없다. 기본 리스트에서 append()와 pop() 메서드를 이용하면 스택 자료구조와 동일하게 작동한다.

  • append(): 리스트의 가장 맨 뒤쪽에 데이터를 삽입한다.
  • pop(): 리스트의 가장 뒤쪽에서 데이터를 꺼낸다.

큐(Queue)란?

큐는 대기 줄에 비유할 수 있다. 우리가 흔히 놀이공원에 입장하기 위하여 줄을 설 때, 먼저 온 사람이 먼저 들어가며, 나중에 온 사람은 나중에 들어간다. 이러한 구조를 선입선출(First In First Out)이라 한다.

파이썬으로 큐를 구현하고 싶다면 collections 모듈에서 제공하는 deque 자료구조를 이용하자. deque는 스택과 큐의 장점을 모두 채택한 것인데, 데이터를 넣고 빼는 속도가 리스트 자료형에 비해 효율적이며, queue 라이브러리를 이용하는 것보다 더 간단하다.

대부분 코딩 테스트에서 collections 모듈과 같은 기본 라이브러리 사용을 허용하므로 안심하고 사용해도 된다!!

재귀 함수(Recursive Function)

재귀 함수란 자기 자신을 다시 호출하는 함수를 의미한다. 가장 간단한 재귀 함수는 다음과 같다.

def recursive_function():
	print("재귀 함수를 호출합니다.")
    recursive_function()

recursive_function()

이 코드를 실행하면 "재귀 함수를 호출합니다"라는 문자열을 무한히 출력한다. 우리가 정의한 recursive_function()이란 함수는 자기 자신을 계속 추가로 불러오기 때문이다. 하지만 이 함수는 어느 정도 출력하다가 다음과 같은 오류를 출력하고 자동으로 멈춘다.

RecursionError: maximum recursion depth exceeded while calling a Python object

해당 오류 메세지는 재귀의 최대 깊이를 초과했다는 뜻이다. 보통 파이썬 인터프리터에는 호출 횟수에 제한이 있다. 따라서 무한대로 재귀 호출을 진행할 수 없다.

지금까지 탐색 알고리즘 중 하나인 DFS / BFS에 필요한 3가지 자료구조인 스택, 큐, 재귀함수에 대해 알아보았다 이제 DFS / BFS에 대해 알아보자.

DFS

DFS는 Depth-First Search의 약자로, 그래프에서 깊은 부분을 우선적으로 탐색하는 알고리즘이다. 우선 DFS를 설명하기 전에 그래프(Graph)의 기본 구조를 알아야 한다.

그래프는 노드(Node)와 간선(Edge)로 표현되며, 이때 노드를 정점(Vertex)라 한다. 그래프 탐색이란 하나의 노드를 시작으로 다수의 노드를 방문하는 것을 말한다. 또한 두 노드가 간선으로 연결되어 있다면 "두 노드는 인접하다""라고 표현한다.

그래프 탐색을 비유하자면 노드는 도시, 간선은 도로라 생각해보자. A라는 도시(노드)에서 B라는 도시(노드)로 이동하기 위해서는 A와 B를 연결하는 도로(간선)을 거쳐야 한다고 이해하면 쉽다.

프로그래밍에서 그래프는 크게 2가지 방식이며, 이 두 방식 모두 필요하니 반드시 제대로 알고 있어야 한다.

  • 인접 행렬(Adjacency Matrix): 2차원 배열로 그래프의 연결 관계를 표현하는 방식
  • 인접 리스트(Adjacency List): 리스트로 그래프의 연결 관계를 표현하는 방식

인접 행렬 방식

다음의 그래프가 있다. 서로 연결되지 않는 노드끼리는 무한의 비용이라고 작성을 한다.

INF = 999999999 #무한의 비용

graph = [
	[0, 7, 5],
    [7, 0, INF],
    [5, INF, 0]
]

인접 리스트 방식

인접 리스트 방식에서는 다음 그림처럼 모든 노드에 연결된 노드에 대한 정보를 차례대로 연결하여 저장한다.

파이썬으로 인접 리스트를 이용해 그래프를 구현하고자하면, 단순히 2차원 리스트와 append() 메서드를 이용하면 된다.

#행(Row)가 3개인 2차원 리스트로 인접 리스트 표현
graph = [[] for _ in range(3)]

#노드 0에 연결된 노드 정보 저장(노드, 거리)
graph[0].append((1,7))
graph[0].append((2, 5))

#노드 1에 연결된 노드 정보 저장(노드, 거리)
graph[1].append((0, 7))

#노드 2에 연결된 노드 정보 저장(노드, 거리)
graph[2].append((0, 5))

이 두 방식은 어떤 차이가 있을까?

  • 메모리 측면: 인접 행렬 방식은 노드의 모든 관계를 저장하므로, 노드 개수가 많으면 많을수록 메모리가 불필요하게 낭비된다. 반면 인접 리스트 방식은 연결된 정보만 저장하기 때문에 메모리를 효율적으로 사용 가능하다.
  • 속도 측면: 하지만 위의 특성 때문에 인접 리스트 방식에서는 연결된 데이터를 하나씩 확인해야 하므로, 정보를 얻는 속도가 느리다.

DFS는 스택 자료구조를 이용하며 구체적인 동작 과정은 다음과 같다.

  1. 탐색 시작 노드를 스택에 삽입하고 방문 처리를 한다.
  2. 스택의 최상단 노드에 방문하지 않은 인접 노드가 있으면 그 인접 노드를 스택에 넣고 방문 처리를 한다. 방문하지 않은 인접 노드가 없으면 스택에서 최상단 노드를 꺼낸다.
  3. 2번의 과정을 더 이상 수행할 수 없을 때까지 반복한다.

다음과 같은 그래프를 생각해보자. 노드 1을 시작 노드로 설정하여 DFS를 이용하여 탐색을 진행한다. 그 과정은 다음과 같다.

  1. 시작 노드인 '1'을 스택에 삽입 후 방문처리를 한다.
  1. 스택의 최상단 노드인 '1'에 방문하지 않은 인접도느 '2', '3', '8'이 있다. 이 중 가장 작은 노드인 '2'를 스택에 넣고 방문 처리를 한다.
  1. 스택의 최상단 노드인 '2'에 방문하지 않은 인접노드 '7'이 있다. 따라서 '7'번 노드를 스택에 삽입 후 방문 처리를 한다.
  1. 스택의 최상단 노드인 '7'에 방문하지 않는 노드 중 가장 작은 노드 '6'을 스택에 삽입 후 방문 처리한다.
  1. 스택의 최상단 노드인 '6'에 방문하지 않은 인접 노드가 없다. 따라서 스택의 최상단 노드인 '6'을 스택에서 꺼낸다.
  1. 스택의 최상단 노드인 '7'에 방문하지 않은 노드 '8'을 스택에 삽입 후
    방문 처리한다.

  2. 다음의 수행 과정을 반복하면 최종적으로 다음과 같은 결과가 나온다.

    탐색 순서: 1-> 2 -> 7 -> 6 -> 8 -> 3 -> 4 -> 5

깊이 우선 탐색 알고리즘인 DFS는 스택 자료구조에 기초한다는 점에서 구현이 간단하다. 탐색을 수행함에 있어서 데이터의 개수가 N인 경우 시간 복잡도는 O(N)이 소요된다.
또한 DFS는 스택을 이용하는 알고리즘이기 때문에 실제 구현은 재귀 함수를 이용했을 때 매우 간단하게 구현할 수 있다.

DFS 소스코드

# DFS 메서드
def dfs(graph, v, visited):
    #현재 노드 방문 처리
    visited[v] = True
    print(v, end = ' ')
    #현재 노드와 연결된 노드를 재귀적으로 방문
    for i in graph[v]:
        if not visited[i]:
            dfs(graph, i, visited)

#그래프를 인접 리스트로 표현
graph = [[], [2,3,8], [1, 7], [1, 4, 5], [3, 5], [3, 4], [7], [2, 6, 8], [1, 7]]

#방문 여부 리스트
visited = [False] * 9

dfs(graph, 1, visited)

BFS

BFS(Breadth First Searh) 알고리즘은 너비 우선 탐색이라는 의미를 갖는다. DFS는 최대한 멀리 있는 노드를 우선으로 탐색했다면, BFS는 그 반대이다.

BFS는 선입선출(FIFO) 방식인 큐(Queue) 자료구조를 이용하는 것이 정석이다. 인접한 노드를 반복적으로 큐에 넣으면 자동적으로 먼저 들어온 것이 먼저 나가게 되어, 가까운 노드부터 탐색을 진행하게 한다.

  1. 탐색 시작 노드를 큐에 삽입 후 방문 처리한다.
  2. 큐에서 노드를 꺼내 해당 노드의 인접 노드 중에서 방문하지 않은 모든 노드를 큐에 삽입 후 방문처리를 한다.
  3. 2번의 과정을 더 이상 수행할 수 없을 때까지 반복한다.

아까와 같은 그래프를 다시 보자.

  1. 시작 노드인 '1'을 큐에 삽입 후 방문 처리한다.
  1. 큐에서 1을 꺼낸 후 방문하지 않은 인접 노드 '2', '3', '8'을 모두 큐에 삽입 후 방문 처리한다.
  1. 큐에서 '2'를 꺼낸 후 방문하지 않은 노드 '7'을 큐에 삽입 후 방문 처리한다.

이 과정을 반복하면 최종적으로 다음과 같다.

BFS에서의 노드 탐색 순서는 다음과 같다.
1 -> 2 -> 3-> 8-> 7-> 4-> 5-> 6

너비 우선 탐색 알고리즘인 BFS는 큐 자료구조에 기초한다는 점에서 구현이 간단하다. 앞서 언급한 deque 라이브러리를 사용하는 것이 좋으며, N개의 데이터를 탐색함에 있어 O(N)의 시간이 소요된다. 일반적으로 실제 수행시간은 DFS보다 좋은 편이다.

BFS 소스코드

from collections import deque

#BFS 메서드
def bfs(graph, started, visited):
    queue = deque([started])
    visited[started] = True
    #큐가 빌 때까지 반복함.
    while queue:
        v = queue.popleft()
        print(v, end = ' ')
        #해당 노드와 연결된 모든 노드를 큐에 삽입
        for i in graph[v]:
            if not visited[i]:
                queue.append(i)
                visited[i] = True

#그래프를 인접 리스트로 표현
graph = [[], [2,3,8], [1, 7], [1, 4, 5], [3, 5], [3, 4], [7], [2, 6, 8], [1, 7]]

#방문 여부 리스트
visited = [False] * 9

bfs(graph, 1, visited)
profile
노력하는 개발자

0개의 댓글