3-1. DFS/BFS 개념 & 실전 문제

Speedwell🍀·2022년 3월 31일

코딩테스트

이것이 코딩 테스트다

목록 보기

5/15

1. 자료구조 기초

탐색 (Search)

많은 양의 데이터 중 원하는 데이터를 찾는 과정
프로그래밍에서는 그래프, 트리 등의 자료구조 안에서 탐색하는 문제 많음
대표적인 탐색 알고리즘
- DFS/BFS
  
  ➡️ 두 알고리즘을 제대로 이해하려면 기본 자료구조인 스택과 큐를 잘 아는 상태여야 함

자료구조 (Data Structure)

데이터를 표현/관리/처리하기 위한 구조
스택과 큐는 자료구조의 기초 개념
- 핵심 함수
  - 삽입(Push)
  - 삭제(Pop)
- 주의할 점
  - 오버플로(Overflow) : 특정한 자료구조가 수용할 수 있는 데이터의 크기를 이미 가득 찬 상태에서 삽입 연산을 수행할 때 발생
  - 언더플로(Underflow) : 특정한 자료구조에 데이터가 전혀 들어 있지 않은 상태에서 삭제 연산을 수행할 때 발생

스택 (Stack)

후입선출 (LIFO; Last In First Out) 구조
print(stack[::-1])➡️ 스택의 최상단 원소부터 출력
별도의 라이브러리 없이 스택 사용 가능
- 기본 리스트에서 append()와 pop() 메서드를 이용하면 스택 자료구조와 동일하게 동작
  - append() : 리스트의 가장 뒤쪽에 데이터 삽입
  - pop() : 리스트의 가장 뒤쪽에서 데이터 꺼냄

stack = []

# 삽입(5) - 삽입(2) - 삽입(3) - 삽입(7) - 삭제() - 삽입(1) - 삽입(4) - 삭제()
stack.append(5)
stack.append(2)
stack.append(3)
stack.append(7)
stack.pop()
stack.append(1)
stack.append(4)
stack.pop()

print(stack) # 최하단 원소부터 출력
print(stack[::-1]) # 최상단 원소부터 출력

# [5, 2, 3, 1]
# [1, 3, 2, 5]

큐 (Queue)

선입선출 (FIFO; First In First Out) 구조
파이썬으로 큐를 구현할 때는 collections 모듈에서 제공하는 deque 자료구조 활용
- deque
  - 스택과 큐의 장점 모두 채택
  - 데이터 넣고 빼는 속도가 리스트 자료형에 비해 효율적
  - queue 라이브러리 이용하는 것보다 더 간단
- deque 객체를 리스트 자료형으로 변경하고자 하면 list(queue) ➡️ 리스트 자료형 반환

from collections import deque

# 큐 구현을 위해 deque 라이브러리 사용
queue = deque()

# 삽입(5) - 삽입(2) - 삽입(3) - 삽입(7) - 삭제() - 삽입(1) - 삽입(4) - 삭제()
queue.append(5)
queue.append(2)
queue.append(3)
queue.append(7)
queue.popleft()
queue.append(1)
queue.append(4)
queue.popleft()

print(queue) # 먼저 들어온 순서대로 출력
queue.reverse() # 다음 출력을 위해 역순으로 바꾸기
print(queue) # 나중에 들어온 원소부터 출력

# deque([3, 7, 1, 4])
# deque([4, 1, 7, 3])

재귀 함수 (Recursive Function)

자기 자신을 다시 호출하는 함수
재귀(Recursion)의 최대 깊이를 초과하면 아래 오류 메시지 출력.
파이썬 인터프리터는 호출 횟수 제한이 있는데 이 한계를 벗어났기 때문.

RecursionError: maximum recursion depth exceed while pickling an object

재귀 함수의 종료 조건

문제 풀이에서 재귀 함수를 사용할 때는 재귀 함수의 종료 조건을 꼭 명시해야 함!
➡️ 종료 조건을 명시하지 않으면 함수가 무한 호출될 수 있음

재귀 함수는 내부적으로 스택 자료구조와 동일
- 함수를 계속 호출했을 때 가장 마지막에 호출한 함수가 먼저 수행을 끝내야 그 앞의 함수 호출이 종료되기 때문

➡️ 스택 자료구조를 활용해야 하는 상당수 알고리즘은 재귀 함수를 이용해서 간편하게 구현 가능

📌 DFS가 대표적인 예

팩토리얼(Factorial) 예제

# 반복적으로 구현한 n!
def factorial_iterative(n):
	result = 1
    # 1부터 n까지의 수를 차례대로 곱하기
    for i in range(1, n + 1):
    	result *= i
    return result

# 재귀적으로 구현한 n!
def factorial_recursive(n):
	if n <= 1: # n이 1 이하인 경우 1을 반환
    	return 1
	# n! = n * (n - 1)! 그대로 코드로 작성
    return n * factorial_recursive(n - 1)

# 각각의 방식으로 구현한 n! 출력 (n = 5)
print('반복적으로 구현:', factorial_iterative(5)) # 120
print('재귀적으로 구현:', factorial_recursive(5)) # 120

❓ 실행 결과는 동일한데 반복문 대신 재귀 함수를 사용했을 때 얻을 수 있는 장점은?

✔️ 코드가 더 간결 - 수학의 점화식(재귀식)을 그대로 소스코드로 옮겼기 때문!!

점화식 : 특정한 함수를 자신보다 더 작은 변수에 대한 함수와의 관게로 표현한 것

팩토리얼의 수학 점화식

n이 0 혹은 1일 때 : factorial(n) = 1
n이 1보다 클 때 : factorial(n) = n x factorial(n - 1)

2. 탐색 알고리즘 DFS/BFS

DFS (Depth-First Search)

깊이 우선 탐색 ➡️ 그래프에서 깊은 부분을 우선적으로 탐색
그래프는 노드(Node) or 정점(Vertex)와 간선(Edge)로 표현
- 두 노드가 간선으로 연결되어 있으면 '두 노드는 인접(Adjacent)하다'고 표현
- 연결이 되어 있지 않은 노드끼리는 무한(Infinity)의 비용
  - 코드에서는 정답이 될 수 없는 큰 값 중에서 999999999, 987654321 등의 값으로 초기화

그래프 표현 방식

인접 행렬 (Adjacency Matrix) : 2차원 배열로 그래프의 연결 관계를 표현하는 방식
인접 리스트 (Adjacency List) : 리스트로 그래프의 연결 관계를 표현하는 방식

1) 인접 행렬 방식

2차원 배열에 각 노드가 연결된 형태를 기록 ➡️ 2차원 리스트로 구현

INF = 999999999 # 무한의 비용 선언

# 2차원 리스트를 이용해 인접 행렬 표현
graph = [
	[0, 7, 5],
    [7, 0, INF],
    [5, INF, 0]
]

print(graph)

# [[0, 7, 5], [7, 0, 999999999], [5, 999999999, 0]]

2) 인접 리스트 방식

모든 노드에 연결된 노드에 대한 정보를 차례대로 연결해 저장
연결 리스트 자료구조를 이용해 구현
- C++, JAVA 같은 프로그래밍 언어에서는 별도로 표준 라이브러리 제공
- 파이썬은 기본 자료형인 리스트 자료형이 배열/연결리스트 기능을 기본으로 제공 ➡️ 2차원 리스트로 구현

# 행(Row)이 3개인 2차원 리스트로 인접 리스트 표현
graph = [[] for _ in range(3)]

# 노드 0에 연결된 노드 정보 저장 (노드, 거리)
graph[0].append((1, 7))
graph[0].append((2, 5))

# 노드 1에 연결된 노드 정보 저장 (노드, 거리)
graph[1].append((0, 7))

# 노드 2에 연결된 노드 정보 저장 (노드, 거리)
graph[2].append((0, 5))

print(graph)

# [[(1, 7), (2, 5)], [(0, 7)], [(0, 5)]]

인접 행렬 vs. 인접 리스트

✔️ 메모리와 속도 측면에서 비교

메모리
- 인접 행렬 : 모든 관계를 저장하므로 노드 개수가 많을수록 불필요하게 낭비
- 인접 리스트 : 연결된 정보만을 저장하기 때문에 메모리 효율적으로 사용
속도
- 인접 리스트 방식은 인접 행렬 방식에 비해 특정한 두 노드가 연결되어 있는지에 대한 정보를 얻는 속도가 느림 - 연결된 데이터를 하나씩 확인해야 하기 때문에!!

예) 한 그래프에서 노드 1과 노드 7이 연결되어 있는 상황

인접 행렬은 graph[1][7]만 확인하면 됨!
인접 리스트는 노드 1에 대한 인접 리스트를 앞에서부터 차례로 확인해야 함!

➡️ 특정한 노드와 연결된 모든 인접 노드를 순회해야 하는 경우, 인접 리스트 방식이 인접 행렬에 비해 메모리 공간의 낭비가 적다!

DFS 알고리즘 정의

특정한 경로로 탐색하다가 특정한 상황에서 최대한 깊숙이 들어가서 노드를 방문한 후, 다시 돌아가 다른 경로로 탐색하는 알고리즘
스택 자료구조 이용

동작 과정

탐색 시작 노드를 스택에 삽입하고 방문 처리
스택의 최상단 노드에 방문하지 않은 인접 노드가 있으면 그 인접 노드를 스택에 넣고 방문 처리.
방문하지 않은 인접 노드가 없으면 스택에서 최상단 노드를 꺼낸다.
2번의 과정을 더 이상 수행할 수 없을 때까지 반복

'방문 처리'는 스택에 한 번 삽입되어 처리된 노드가 다시 삽입되지 않게 체크하는 것을 의미
➡️ 각 노드를 한 번씩만 처리하도록

DFS는 깊이 우선 탐색이므로 단순하게 가장 깊숙이 위치하는 노드에 닿을 때까지 확인(탐색)하면 되지만, 관행적으로 번호가 낮은 순서부터 처리하도록 구현

DFS는 스택 자료구조에 기초한다는 점에서 구현이 간단
데이터의 개수가 N개인 경우 O(N) 시간 소요
재귀 함수를 이용해 구현할 때 매우 간결

# DFS 메서드 정의
def dfs(graph, V, visited):
	# 현재 노드를 방문 처리
    visited[v] = True
    print(v, end=' ')
    # 현재 노드와 연결된 다른 노드를 재귀적으로 방문
    for i in graph[v]:
    	if not visited[i]:
        	dfs(graph, i, visited)

# 각 노드가 연결된 정보를 리스트 자료형으로 표현 (2차원 리스트)
graph = [
	[],
    [2, 3, 8],
    [1, 7],
    [1, 4, 5],
    [3, 5],
    [3, 4],
    [7],
    [2, 6, 8],
    [1, 7]
]

# 각 노드가 방문된 정보를 리스트 자료형으로 표현 (1차원 리스트)
visited = [False] * 9

# 정의된 DFS 함수 호출
dfs(graph, 1, visited)

# 1 2 7 6 8 3 4 5

BFS (Breadth-First Search)

너비 우선 탐색 ➡️ 가까운 노드부터 탐색하는 알고리즘

DFS는 최대한 멀리 있는 노드를 우선적으로 탐색. BFS는 반대!

선입선출 방식인 큐 자료구조 이용
- 인접한 노드를 반복적으로 큐에 넣도록 알고리즘을 작성하면 먼저 들어온 것이 먼저 나가게 되어, 가까운 노드부터 탐색하게 됨!

동작 과정

탐색 시작 노드를 큐에 삽입하고 방문 처리
큐에서 노드를 꺼내 해당 노드의 인접 노드 중에서 방문하지 않은 노드를 모두 큐에 삽입하고 방문 처리
2번의 과정을 더 이상 수행할 수 없을 때까지 반복

인접한 노드가 여러 개 있을 때, 숫자가 작은 노드부터 먼저 큐에 삽입한다.

큐 자료구조에 기초한다는 점에서 구현이 간단
deque 라이브러리를 사용하는 것이 좋음
탐색 수행에 O(N) 시간 소요

보통 수행시간은 DFS보다 좋다.

from collections import deque

# BFS 메서드 정의
def bfs(graph, start, visited):
	# 큐 구현을 위해 deque 라이브러리 사용
    queue = deque([start])
    # 현재 노드를 방문 처리
    visited[start] = True
    # 큐가 빌 때까지 반복
    while queue:
    	# 큐에서 하나의 원소를 뽑아 출력
        v = queue.popleft()
        print(v, end=' ')
        # 해당 원소와 연결된, 아직 방문하지 않은 원소들을 큐에 삽입
        for i in graph[v]:
        	if not visited[i]:
            	queue.append(i)
                visited[i] = True

# 각 노드가 연결된 정보를 리스트 자료형으로 표현 (2차원 리스트)
graph = [
	[],
    [2, 3, 8],
    [1, 7],
    [1, 4, 5],
    [3, 5],
    [3, 4],
    [7],
    [2, 6, 8],
    [1, 7]
]

# 각 노드가 방문된 정보를 리스트 자료형으로 표현 (1차원 리스트)
visited = [False] * 9

# 정의된 BFS 함수 호출
bfs(graph, 1, visited)

# 1 2 3 8 7 4 5 6

DFS vs. BFS

동작 원리

DFS	BFS
스택	큐

구현 방법

DFS	BFS
재귀 함수 이용	큐 자료구조 이용

2차원 배열에서의 탐색 문제를 만나면 그래프 형태로 바꿔서 생각하면 풀이 방법을 더 쉽게 떠올릴 수 있다!
➡️ 탐색 문제를 만나면 그래프 형태로 표현한 풀이법을 고민하도록 하자!!

3. 실전 문제

음료수 얼려 먹기

난이도: 🌕🌗
풀이 시간: 30분
시간 제한: 1초
메모리 제한: 128MB

N x M 크기의 얼음 틀이 있다. 구멍이 뚫려 있는 부분은 0, 칸막이가 존재하는 부분은 1로 표시된다. 구멍이 뚫려 있는 부분끼리 상, 하, 좌, 우로 붙어 있는 경우 서로 연결되어 있는 것으로 간주한다.

얼음 틀의 모양이 주어졌을 때 생성되는 총 아이스크림의 개수를 구하는 프로그램을 작성하시오.

입력 조건

첫 번째 줄에 얼음 틀의 세로 길이 N과 가로 길이 M이 주어진다. (1 ≤ N, M ≤ 1,000)
두 번째 줄부터 N + 1번째 줄까지 얼음 틀의 형태가 주어진다.
구멍이 뚫려있는 부분은 0, 그렇지 않은 부분은 1이다.

출력 조건

한 번에 만들 수 있는 아이스크림의 개수를 출력한다.

# 입력 예시
15 14
00000111100000
11111101111110
11011101101110
11011101100000
11011111111111
11011111111100
11000000011111
01111111111111
00000000011111
01111111111000
00011111111000
00000001111000
11111111110011
11100011111111
11100011111111

# 출력 예시
8

<해설>

얼음을 얼릴 수 있는 공간이 상, 하, 좌, 우로 연결되어 있으므로 "그래프" 형태로 모델링 가능
➡️ '0'인 값이 상, 하, 좌, 우로 연결되어 있는 노드의 묶음을 찾아주는 프로그램을 어떻게 작성할 수 있을까?

📌 DFS로 해결

특정한 지점의 주변 상, 하, 좌, 우를 살펴본 뒤에 주변 지점 중에서 값이 '0'이면서 아직 방문하지 않은 지점이 있다면 해당 지점을 방문
방문한 지점에서 다시 상, 하, 좌, 우를 살펴보면서 방문을 다시 진행하면, 연결된 모든 지점을 방문할 수 있다.
1~2번 과정을 모든 노드에 반복하며 방문하지 않은 지점의 수를 센다.

# N, M을 공백을 기준으로 구분하여 입력 받기
n, m = map(int, input().split())

# 2차원 리스트의 맵 정보 입력 받기
graph = []
for i in range(n):
    graph.append(list(map(int, input())))

# DFS로 특정한 노드를 방문한 뒤에 연결된 모든 노드들도 방문
def dfs(x, y):
    # 주어진 범위를 벗어나는 경우에는 즉시 종료
    if x <= -1 or x >= n or y <= -1 or y >= m:
        return False
    # 현재 노드를 아직 방문하지 않았다면
    if graph[x][y] == 0:
        # 해당 노드 방문 처리
        graph[x][y] = 1
        # 상, 하, 좌, 우의 위치들도 모두 재귀적으로 호출
        dfs(x - 1, y)
        dfs(x, y - 1)
        dfs(x + 1, y)
        dfs(x, y + 1)
        return True
    return False

# 모든 노드(위치)에 대하여 음료수 채우기
result = 0
for i in range(n):
    for j in range(m):
        # 현재 위치에서 DFS 수행
        if dfs(i, j) == True:
            result += 1

print(result) # 정답 출력

미로 탈출