[알고리즘] DFS/BFS/재귀함수/Stack

Sujin Lee·2022년 4월 2일

DFS/BFS python

알고리즘

목록 보기

2/12

탐색

많은 양의 데이터 중에서 원하는 데이터를 찾는 과정
프로그래밍에서는 그래프, 트리 등의 자료구조 안에서 탐색을 하는 문제를 자주 다룸
탐색 알고리즘: DFS, BFS

자료구조

데이터를 표현하고 관리하고 처리하기 위한 구조
스택과 큐는 자료구조의 기초 개념으로 다음의 두 핵심적인 함수로 구성
- 삽입(Push): 데이터를 삽입한다.
- 삭제(Pop): 데이터를 삭제한다.
스택과 큐를 사용할 때는 삽입과 삭제 외에도 오버플로와 언더플로를 고민해야함
- 오버플로(Overflow): 특정한 자료구조가 수용할 수 있는 데이터의 크기를 이미 가득 찬 상태에서 삽입 연산을 수행할 때 발생. 즉, 저장 공간을 벗어나 데이터가 넘쳐흐를 때 발생
- 언더플로(Underflow): 특정한 자료구조에 데이터가 전혀 들어 있지 않은 상태에서 삭제 연산을 수행하면 데이터가 전혀 없는 상태이므로 언더플로 발생

스택(Stack)

선입후출 구조 (First In Last Out; FILO)
후입선출 구조 (Last In First Out; LIFO)
박스 쌓기에 비유하면, 박스는 아래에서부터 위로 차곡차곡 쌓으며, 아래에 있는 박스를 치우기 위해서는 위에 있는 박스를 먼저 내려야한다.

stack = []

stack.append(5)
stack.append(2)
stack.append(3)
stack.append(7)
stack.pop()
stack.append(1)
stack.append(4)
stack.pop()

print(stack) # 최하단 원소부터 출력 # [5,2,3,1]
print(stack[::-1]] # 최상단 원소부터 출력 # [1,3,2,5]

파이썬에서 스택을 이용할 때에는 별도의 라이브러리를 사용할 필요 없음
기본 리스트에서 append()와 pop()메서드를 이용하면 스택 자료구조와 동일하게 동작
append(): 리스트 가장 뒤쪽에 데이터 삽입
pop(): 리스트 가장 뒤쪽 데이터를 꺼냄

큐(Queue)

선입선출 구조(First In First Out; FIFO)
대기 줄에 비유하면, 먼저 온 사람이 먼저 들어감 -> 공정한 자료구조

from collections import deque

# 큐(queue) 구현을 위해 deque 라이브러리 사용
queue = deque()

queue.append(5)
queue.append(2)
queue.append(3)
queue.append(7)
queue.popleft()
queue.append(4)
queue.append(1)
queue.popleft()

print(queue) # 먼저 들어온 순서대로 출력 # deque([3, 7, 4, 1])
queue.reverse() # 역순으로 바꾸기
print(queue) # 나중에 들어온 순서대로 출력 # deque([1, 4, 7, 3])
print(list(queue)) # deque 객체를 리스트 자료형으로 변경 # [1, 4, 7, 3]

파이썬으로 큐를 구현할 때는 collections 모듈에서 제공하는 deque 자료구조 활용
스택과 큐의 장점을 모두 채택한 것으로 데이터를 넣고 빼는 속도가 리스트 자료형에 비해 효율적이며 queue 라이브러리를 이용한 것보다 더 간단
코테에서는 collections 모듈과 같은 기본 라이브러리 사용 허용

재귀 함수(Recursive Function)

자기 자신을 다시 호출하는 함수
DFS와 BFS를 구현하려면 재귀 함수 이해 필요

# 간단한 재귀한수 예시
def hello():
    print('Hello, world!')
    hello()
 
hello()
# Hello, world!
# Hello, world!
# Hello, world!
# ...
# RecursionError: maximum recursion depth exceeded while pickling an object

hello()함수가 자기 자신을 계속해서 추가로 불러오기 때문에 'Hello, world!'를 무한히 출력
어느 정도 출력하다가 오류 메시지를 출력하고 멈출 것임

재귀 함수의 종료 조건

재귀 함수가 언제 끝날지, 종료 조건 반드시 명시
재귀 함수 내 특정 조건일 때 더 이상 재귀적으로 함수를 호출하지 않고 종료하도록 if문을 이용하여 꼭 종료 조건을 구현!
재귀 함수는 내부적으로 스택 자료구조와 동일

def recursive(i):
	# 100번째 출력했을 때 종료되도록 종료 조건 명시
    if i == 100:
    	return
    print(i, '번째 재귀 함수에서', i+1,'번째 재귀 함수를 호출')
    recursive(i+1)
    print(i,'번째 재귀 함수를 종료')

recursive(1)
# 1 번째 재귀 함수에서 2 번째 재귀 함수를 호출
# 2 번째 재귀 함수에서 3 번째 재귀 함수를 호출
# ...
# 99 번째 재귀 함수에서 100 번째 재귀 함수를 호출
# 99 번째 재귀 함수를 종료
# 98 번째 재귀 함수를 종료
# ...
# 2 번째 재귀 함수를 종료
# 1 번째 재귀 함수를 종료

재귀 함수를 이용하는 대표적 예제: 팩토리얼 문제

$n! = 1×2×3×...×(n-1)×n$
수학적으로 $0!$ 와 $1!$ 의 값은 1로 같다는 성질을 이용하여 팩토리얼 함수는 $n$ 이 1이하가 되었을 때 함수를 종료

# 반복적으로 구현한 n!
def fatorial_iterative(n):
  result = 1
  # 1부터 n까지의 수를 차례대로 곱하기
  for i in range(1, n+1):
    result *= i
  return result

# 재귀적으로 구현한 n!
def factorial_recursive(n):
  # n이 1이하인 경우 1을 반환
  if n <= 1:
    return 1
  # n! = n * (n-1)!를 그대로 코드로 작성
  return n * factorial_recursive(n-1)

# 각각의 방식으로 구현한 n! 출력 (n = 5)
print('반복적으로 구현',fatorial_iterative(5)) # 반복적으로 구현 120
print('재귀적으로 구현',factorial_recursive(5)) # 재귀적으로 구현 120

재귀 함수의 코드가 더 간결한 이유: 재귀 함수가 수학의 점화식(재귀식)을 그래도 소스코드로 옮겼기 때문에
팩토리얼을 수학적 점화식으로 표현
- $n$ 이 0 혹은 1일 때: $factorial(n) = 1$
- $n$ 이 1보다 클 때: $factorial(n) =n×factorial(n-1)$

그래프

그래프의 기본 구조

노드(Node)와 간선(Edge)으로 표현되며, 이때 노드를 정점(Vertex)이라고도 함
ex) 노드는 도시, 간선은 도로

그래프 탐색

하나의 노드를 시작으로 다수의 노드를 방문하는 것
두 노드가 간선으로 연결되어 있다면 = 두 노드는 인접하다

그래프 표현 방식: 인접 행렬, 인접 리스트

인접 행렬(Adjacency Matrix)

2차원 배열로 그래프의 연결 관계를 표현하는 방식
2차원 배열에 각 노드가 연결된 형태를 기록하는 방식
파이썬에서는 2차원 리스트로 구현
연결되어 있지 않은 노드끼리는 무한의 비용이라고 작성
실제 코드에서는 논리적으로 정답이 될 수 없는 큰 값 중에서 999999999, 987654321등의 값으로 초기화하는 경우가 많음

INF = 999999999 # 무한의 비용 선언

# 2차원 리스트를 이용해 인접 행렬 표현
graph = [
	[0,7,5],
    [7, 0, INF],
    [5, INF, 0]   
]

print(graph) # [[0, 7, 5], [7, 0, 999999999], [5, 999999999, 0]]

인접 리스트(Adjacency List)

리스트로 그래프의 연결 관계를 표현하는 방식
모든 노드에 연결된 노드에 대한 정보를 차례대로 연결하여 저장
연결 리스트 이용: 파이썬은 기본 자료형이 append()와 메소드를 제공
파이썬으로 인접 리스트를 이용해 그래프를 표현하고자 할 때에도 단순히 2차원 리스트를 이용

# 행(Row)이 3개인 2차원 리스트로 인접 리스트 표현
# [[], [], []]
graph= [[] for _ in range(3)]

# 노드 0에 연결된 노드 정보 저장(노드, 거리)
graph[0].append((1,7))
graph[0].append((2,5))

# 노드 1에 연결된 노드 정보 저장(노드, 거리)
graph[1].append((0,7))

# 노드 2에 연결된 노드 정보 저장(노드, 거리)
graph[2].append((0,5))

print(graph) # [[(1, 7), (2, 5)], [(0, 7)], [(0, 5)]]

메모리와 속도 측면

인접 행렬 방식은 모든 관계를 저장하므로 노드 개수가 많을수록 메모리가 불필요하게 낭비
인접 리스트 방식은 연결된 정보많을 저장하기 때문에 메모리를 효율적으로 사용
인접 리스트 방식은 인접 행렬 방식에 비해 특정한 두 노드가 연결되어 있는에 대한 정보를 얻는 속도가 느림 ➞ 연결된 데이터를 하나씩 확인해야하기 때문에

DFS(Depth-First Search)

깊이 우선 탐색
그래프의 깊은 부분(최대한 멀리 있는)을 우선적으로 탐색하는 알고리즘
동작 방식: 특정한 경로를 탐색하다가 특정한 상황에서 최대한 깊숙이 들어가서 노드를 방문한 후 , 다시 돌아가 다른 경로를 탐색하는 알고리즘
1️⃣ 탐색 시작 노드를 스택에 삽입하고 방문 처리를 한다.
2️⃣ 스택의 최상단 노드에 방문하지 않은 인접 노드가 있으면 그 인접 노드를 스택에 넣고 방문 처리를 한다. 방문하지 않은 인접 노드가 없으면 스택에서 최단 노드를 꺼낸다
3️⃣ 2️⃣번의 과정을 더 이상 수행할 수 없을 때까지 반복
💬 '방문 처리'는 스택에 한 번 삽입되어 처리된 노드가 다시 삽입되지 않게 체크하는 것을 의미. 방문 처리를 함으로써 각 노드를 한 번씩만 처리할 수 있다
💬 일반적으로 인접한 노드 중에서 방문하지 않은 노드가 여러 개 있으면 번호가 낮은 순서부터 처리
시간 복잡도: $O(N)$

장점

현 경로상의 노드를 기억하기 때문에 적은 메모리 사용
찾으려는 노드가 깊은 단계에 있는 경우 BFS보다 빠르게 찾을 수 있음

단점

해가 없는 경로를 탐색할 경우 단계가 끝날 때까지 탐색 ➞ 효율성을 높이기 위해서 미리 지정한 임의 깊이까지만 탐색하고 해를 발견하지 못하면 빠져나와 다른 경로를 탐색하는 방법을 사용
DFS를 통해서 얻어진 해가 최단 경로라는 보장이 없음 ➞ DFS는 해에 도착하면 탐색을 종료하기 때문에

def dfs(graph, v, visited):
  # 현재 노드를 방문 처리
  visited[v] = True
  print(v,end = ' ')
  # 현재 노드와 연결된 다른 노드를 재귀적으로 방문
  # graph[1] = [2, 3, 8]
  for i in graph[v]:
    if not visited[i]:
      dfs(graph, i ,visited)

# 각 노드가 연결된 정보를 리스트 자료형으로 표현(2차원 리스트)
graph =[
  [],
  [2,3,8],
  [1,7],
  [1,4,5],
  [3,5],
  [3,4],
  [7],
  [2,6,8],
  [1,7]
]

# 각 노드가 방문된 정보를 리스트 자료형으로 표현(1차원 리스트)
# [False, False, False, False, False, False, False, False, False]
visited = [False] * 9

# 정의된 DFS 함수 호출
dfs(graph, 1, visited) # 스택에 들어간 순서 = 탐색 순서 = 1 2 7 6 8 3 4 5

BFS(Breadth First Search)

너비 우선 탐색
가까운 노드부터 탐색하는 알고리즘
동작 방식: 구현에서는 선입선출 방식인 큐 자료구조 이용
- 인접한 노드를 반복적으로 큐에 넣도록 알고리즘을 작성하면 자연스럽게 먼저 들어온 것이 먼저 나가게 되어, 가까운 노드부터 탐색을 진행
1️⃣ 탐색 시작 노드를 큐에 삽입하고 방문 처리를 한다.
2️⃣ 큐에서 노드를 꺼내 해당 노드의 인접 노드 중에서 방문하지 않은 노드를 모두 큐에 삽입하고 방문 처리를 한다.
3️⃣ 2️⃣번의 과정을 더 이상 수행할 수 없을 때까지 반복
💬 인접한 노드 중에서 방문하지 않은 노드가 여러 개 있으면 번호가 낮은 순서부터 큐에 삽입한다고 가정
deque라이브러리를 사용하는 것이 좋음
시간 복잡도: $O(N)$
실제 수행시간은 DFS보다 좋은 편
💬 재귀 함수로 DFS를 구현하면 컴퓨터 시스템의 동작 특성상 실제 프로그램의 수행 시간은 느려질 수 있다. 따라서 스택 라이브러리를 이용해 시간 복잡도를 완하는 테크닉이 필요할 때도 있다.

장점

답이 되는 경로가 여러 개인 경우에도 최단경로임을 보장
최단 경로가 존재하면 깊이가 무한정 깊어진다고 해도 답을 찾을 수 있음

단점

경로가 매우 길 경우에는 탐색 가지가 급격히 증가함에 따라 보다 많은 기억 공간을 필요로 하게 된다
해가 존재하지 않는다면 유한 그래프의 경우에는 모든 그래프를 탐색한 후에 실패로 끝남
무한 그래프의 경우에는 해를 찾지도 못하고 끝내지도 못함

from collections import deque

def bfs(garph, start, visited):
  # 큐(deque) 구현을 위해 deque라이브러리 사용
  queue = deque([start])
  # 현재 노드를 방문 처리
  visited[start] = True
  # 큐가 비어질 때까지 반복
  while queue:
  # 큐에서 하나의 원소를 뽑아 출력
    v = queue.popleft()
    print(v, end= ' ')
  # 해단 원소와 연결된, 아직 방문하지 않은 원소들을 큐에 삽입
    for i in graph[v]:
      if not visited[i]:
        queue.append(i)
        visited[i] = True
# 각 노드가 연결된 정보를 리스트 자료형으로 표현(2차원 리스트)
graph =[
  [],
  [2,3,8],
  [1,7],
  [1,4,5],
  [3,5],
  [3,4],
  [7],
  [2,6,8],
  [1,7]
]
# 각 노드가 방문된 정보를 리스트 자료형으로 표현(1차원 리스트)
visited = [False] * 9
# 정의된 BFS 함수 호출
bfs(graph, 1, visited) # 큐에 들어간 순서 = 탐색 순서 = 1 2 3 8 7 4 5 6