[자료구조/알고리즘] Tree, Graph

jungmin Lee·2023년 9월 20일

Tree

그래프의 여러 구조 중 단방향 그래프의 한 구조로, 하나의 뿌리로부터 가지가 사방으로 뻗은 형태이다. 트리 구조는 데이터가 하나 이상의 데이터에 한 개의 경로와 하나의 방향으로만 연결된 계층적 자료구조이며 하나의 데이터 아래에 여러 개의 데이터가 존재할 수 있는 비선형 구조이다. 트리구조는 시작 노드에서 출발해 다른 노드를 거쳐 시작 노드로 돌아올 수 있는 사이클이 없는 하나의 연결 그래프라고 할 수 있다.

Tree 구조와 특징

트리 구조는 루트에서부터 시작으로 여러 개의 데이터를 간선으로 연결한다. 각 데이터를 노드라고 하며, 두 개의 노드가 상하 계층으로 연결되며 부모와 자식 관계를 가진다.

노드(Node) : 트리 구조를 이루는 모든 개별 데이터
루트(Root) : 트리 구조의 시작점이 되는 노드
부모 노드(Parent node) : 두 노드가 상하관계로 연결되어 있을 때 상대적으로 루트에서 가까운 노드
자식 노드(Child node) : 두 노드가 상하관계로 연결되어 있을 때 상대적으로 루트에서 먼 노드
리프(Leaf) : 트리 구조의 끝 지점이고, 자식 노드가 없는 노드

깊이(depth)
트리 구조에서 루트로부터 하위 계층의 특정 노드까지의 깊이를 표현할 수 있다.
루트 노드의 깊이는 0이며 하위 노드부터는 1씩 깊이가 증가한다.

레벨(Level)
트리 구조에서 같은 깊이를 가지고 있는 노드를 묶어서 레벨로 표현할 수 있다.
깊이가 0인 루트는 level 1이며 하위 노드부터는 level을 1씩 증가된다. 같은 레벨에 있는 노드를 형제 노드라고 한다.

높이
트리 구조에서 리프 노드를 기준으로 루트까지의 높이를 표현할 수 있다. 리프 노드와 직간적접으로 연결된 노드의 높이를 표현하며, 부모 노드는 자식 노드의 가장 높은 높이 같에 +1한 값을 높이로 가진다.

서브 트리
서브 트리는 트리 구조의 루트에서 뻗어 나오는 큰 트리의 내부에 트리 구조를 갖춘 작은 트리를 말한다.

Tree 실사용 예제

컴퓨터의 디렉토리 구조를 예로 들 수 있다. 모든 폴더는 루트 폴더에서 시작되어, 가지를 뻗어나가며 다른 폴더에서 또 다른 폴더로 진입을 하면서 원하는 프로그램이나 파일을 찾을 수 있다.

Binary Search Tree

이진트리(Binary Tree)

이진트리는 자식 노드가 최대 두 개인 노드로 구성된 트리이며 자식 노드는 왼쪽 자식 노드와 오른쪽 자식 노드로 나눌 수 있다. 자료의 삽입, 삭제 방법에 따라 정 이진트리(Full binary tree), 완전 이진트리(Complete binary tree), 포화 이진트리(Perfect binary tree)로 나눌 수 있다. 이진트리는 이진 탐색 트리와 이진 힙 구현에 사용되며 효율적인 검색과 정렬을 위해 사용된다.

정 이진 트리(Full binary tree)
각 노드가 0개 혹은 2개의 자식 노드를 갖는다.

포화 이진 트리(Perfect binary tree)
정 이진트리이면서 완전 이진트리인 경우로 모든 리프 노드의 레벨이 동일하고, 모든 레벨이 가득 채워져 있는 트리이다.

완전 이진 트리(Complete binary tree)
마지막 레벨을 제외한 모든 노드가 가득 차있고, 마지막 레벨의 노드는 전부 있어야 하는 건 아니지만 왼쪽이 채워져야 한다.

이진 탐색 트리(Binary Search Tree)

이진 탐색 트리는 이진 탐색의 속성이 이진트리에 적용된 특별한 형태의 이진트리이다. 이진 탐색 알고리즘은 정렬된 데이터 중에서 특정한 값을 찾기 위한 탐색 알고리즘 중 하나이다.
오름차순으로 정렬된 정수의 배열을 같은 크기의 두 부분 배열로 나눈 후, 두 부분에서 탐색이 필요한 부분만 탐색하도록 탐색 범위를 제한하여 원하는 값을 찾는 알고리즘이다. 트리의 루트노드는 이진 탐색에서 리스트의 중간값이 된다. 루트노드의 왼편은 모두 루트노드의 값보다 작은 값들이 있으며 모든 왼쪽 자식의 값이 루트나 부모보다 작고, 모든 오른쪽 자식의 값이 루트나 부모보다 큰 값을 가지는 특징이 있다.

배열의 중간에 내가 찾고자 하는 값이 있는지 확인한다.
중간값이 내가 찾고자 하는 값이 아닐 경우, 오름차순으로 정렬된 배열에서 중간값보다 큰 값인지 작은 값인지 판단한다.
찾고자 하는 값이 중간값보다 작은 값일 경우, 배열의 맨 앞부터 중간값 전까지의 범위를 탐색 범위로 잡고 탐색을 반복 수행한다.
찾고자 하는 값이 중간값보다 큰 값일 경우, 배열의 중간값의 다음 값부터 맨 마지막까지를 탐색 범위로 잡고 탐색을 반복 수행한다.

*이진 탐색 트리는 균형 잡힌 트리가 아닐 경우에는 탐색하는데 시간이 더 걸릴 수 있으므로 삽입과 삭제마다 트리의 구조를 재조정하는 과정을 거치는 알고리즘을 추가할 수 있다.

이진 탐색 트리 특징

이진 탐색 트리는 이진트리보다 탐색이 빠르다는 장점이 있다. 이진 탐색 트리의 연산은 트리의 높이가 h라면 o(h)의 복잡도를 가지게 된다.

루트 노드의 키와 찾고자 하는 값을 비교한 후, 찾고있는 값이라면 탐색을 종료한다.
찾고있는 값이 루트 노드의 키보다 작다면 왼쪽 서브 트리로 탐색한다.
찾고있는 값이 루트 노드의 키보다 크다면 오른쪽 서브 트리로 탐색한다.

위의 과정을 찾는 값이 있을때까지 반복하며 값을 찾지 못할 경우에는 그대로 연산을 종료한다. 트리 안에 찾고자 하는 값이 없더라도 최대 h번(트리의 높이) 만큼의 연산 및 탐색이 진행된다.

Tree Traversal

특정 목적을 위해 트리의 모든 노드를 한번씩 방문하는 것을 트리 쉰회라고 하며 전위 순회, 중위 순회, 후위 순회로 3가지 방법이 있다. 3가지 방법 모두 노드를 순회할 때 왼쪽부터 오른쪽으로 조회한다.

전위 순회 (preorder traverse)

전위 순회 출력 결과 : A - B - D - E - C - F - G
전위 순회는 부모 노드가 제일 먼저 방문되는 순회 방식이다. 가장 먼저 루트를 방문하며 왼쪽의 노드들을 순차적으로 방문한 뒤에, 오른쪽 노드를 탐색한다. 전위 순회는 주로 트리를 복사할 때 사용된다.

중위 순회 (inorder traverse)

중위 순회 출력 결과 : D - B - E - A - F - C - G
중위 순회는 부모 노드가 서브 트리의 방문 중간에 방문되는 순회 방식으로 루트를 가운데에 두고 순회한다. 제일 왼쪽 끝네 있는 노드부터 순회하며, 루트를 기준으로 왼쪽에 있는 노드의 순회가 끝나면 루트를 거쳐 오른쪽에 있는 노드로 이동한다. 중위 순회는 이진 탐색 트리의 오름차순으로 값을 가져올 때 쓰인다.

후위 순회 (postorder traverse)

후위 순회 출력 결과 : D - E - B - F - G - C - A
후위 순회는 루트를 가장 마지막에 순회한다. 제일 왼쪽 끝네 있는 노드부터 순회하며 루트를 거치치 않고 오른쪽으로 이동해 순회한 후에, 마지막으로 루트를 방문한다. 후위 순회는 자식노드가 삭제되어야 상위 노드를 삭제 할 수 있으므로 트리를 삭제할 때 사용한다.

레벨 순회 (levelorder traverse)

레벨 순회는 트리의 레벨 기준으로 노드들을 방문하는 순회 방법이다. 루트 노드를 시작으로 아래의 노드들을 방문하며 아래로 내려갈수록 레벨이 증가한다. 동일한 레벨에 여러 노드가 존재할 경우에는 왼쪽부터 오른쪽 순서로 노드를 방문한다.

Graph

그래프는 여러 개의 점이 서로 복잡하게 연결된 관계를 표현한 자료구조이다. 컴퓨터 공학에서의 자료구조는 복잡한 네트워크망과 같은 모습을 가지고 있다.

Graph의 구조

직접적인 관계가 있는 경우 두 점 사이를 이어주는 선이 있으며 간접적인 관계라면 몇 개의 점과 선에 걸쳐 이어진다.
하나의 점을 그래프에서는 정점(vertex)이라고 표현하고, 하나의 선은 간선(edge)이라고 한다.

Graph의 표현 방식

인접 행렬
인접 행렬은 서로 다른 정점들이 인접한 상태인지를 표시한 행렬로 2차원 배열의 형태로 나타낸다. 두 정점을 바로 이어주는 간선이 존재하면 두 정점은 인접하고 한다. 인접 행렬은 두 정점 사이에 관계가 있는지, 없는지 확인하기에 용이하고 가장 빠른 경로를 찾고자 할 때 주로 사용된다. 최단 경로를 구하는 과정(BFS)에서는 그래프 탐색이 빈번하게 발생되는데 인접리스트보다 인접행렬이 인덱스를 직접 접근하여 조회가 이루어지므로 조회 성능이 우수하다. 인접리스트의 경우 각 row를 선형 조회해야 하므로 노드의 수가 N일 경우 O(N)의 시간이 소요된다.

A의 진출차수는 1개입니다: A —> C
[0][2] === 1 // A([0])는 C([2])로 가는 진출차수가 있다(1)

B의 진출차수는 2개입니다: B —> A, B —> C
[1][0] === 1 // B([1])는 A([0])로 가는 진출차수가 있다(1)
[1][2] === 1 // B([1])는 C([2])로 가는 진출차수가 있다(1)

C의 진출차수는 1개입니다: C —> A
[2][0] === 1 // C([2])는 A([0])로 가는 진출차수가 있다(1)

테이블의 0번째 row부터 순서대로 A, B, C, E라고 했을 때,
A(0)는 C와 E를 향하고 있으므로 테이블의 첫 번째 row는 0, 0, 1, 1
B(1)는 A를 향하고 있으므로 테이블의 두 번째 row는 1, 0, 0, 0
C(2)는 B를 향하고 있으므로 테이블의 세 번째 row는 0, 1, 0, 0
E(3)는 B를 향하고 있으므로 테이블의 네 번째 row는 0, 1, 0, 0

0	0	1	1
1	0	0	0
0	1	0	0
0	1	0	0

인접 리스트
인접 리스트는 각 정점이 어떤 정점과 인접한지 리스트의 형태로 표현한 것이다. 한 정점으로 이어지는 간선이 두개라면 순서는 보통 중요하지 않으며 구현하는 사람의 편의와 목적에 따라 기능을 추가하고 삭제할 수 있다. 메모리를 효율적으로 사용하고 싶을 때 사용한다. 인접 행렬은 연결 가능한 모든 경우의 수를 저장하므로 상대적으로 메모리를 많이 차지한다.

0번 노드는 1, 2, 3과 모두 이어져 있으므로 [0, *] -> [1, *] -> [2, *] -> [3, null]
1번 노드는 0과 2에 이어져 있으므로 [1, *] -> [0, *] -> [2, null]
2번 노드는 0과 1과 3에 이어져 있으므로 [2, *] -> [0, *] -> [1, *] -> [3, null]
3번 노드는 0과 2에 이어져 있으므로 [3, *] -> [0, *] -> [2, null]

[0, *] -> [1, *] -> [2, *] -> [3, null]
[1, *] -> [0, *] -> [2, null]
[2, *] -> [0, *] -> [1, *] -> [3, null]
[3, *] -> [0, *] -> [2, null]

Graph 용어

정점 (vertex): 노드(node)라고도 하며 데이터가 저장되는 그래프의 기본 원소이다.
간선 (edge): 정점 간의 관계를 나타내며 정점을 이어주는 선이다.
인접 정점 (adjacent vertex): 하나의 정점에서 간선에 의해 직접 연결된 정점을 말한다.
가중치 그래프 (weighted Graph): 연결의 강도(추가적인 정보, ex. 서울-부산으로 가는 거리 등)가 얼마나 되는지 적혀 있는 그래프를 뜻한다.
비 가중치 그래프 (unweighted Graph): 연결의 강도가 적혀 있지 않는 그래프를 말한다.
무향(무방향) 그래프 (undirected graph): 단방향과 다르게 양방향으로 갈 수 있다.
진입차수 (in-degree) / 진출차수 (out-degree): 한 정점에 진입(들어오는 간선)하고 진출(나가는 간선)하는 간선이 몇 개인지를 나타낸다.
인접 (adjacency): 두 정점 간에 간선이 직접 이어져 있다면 이 두 정점은 인접한 정점이다.
자기 루프 (self loop): 정점에서 진출하는 간선이 곧바로 자기 자신에게 진입하는 경우 자기 루프를 가졌다라고 표현하며 다른 정점을 거치지 않는다는 것이 특징이다.
사이클 (cycle): 한 정점에서 출발하여 다시 해당 정점으로 돌아갈 수 있다면 사이클이 있다고 표현한다.

Graph의 실사용 예제

포털 사이트의 검색 엔진, 내비게이션(길 찾기) 등에서 사용하는 자료구조가 그래프이다.
모두 수많은 정점을 가지고 있고, 서로 관계가 있는 정점은 간선으로 이어져 있다.

BFS, DFS

BFS(Breadth-First Search)

BFS는 너비를 먼저 탐색하는 너비 우선 탐색이다. BFS는 현재 있는 노드에서 가까운 곳부터 탐색하므로 경로를 탐색하는 도중 가장 먼저 발견한 답이 최단거리라는 보장이 되므로 주로 두 정점 사이의 최단 경로를 찾을 때 사용한다.

장점
레벨 단위로 탐색하므로 최단 경로를 보장하며 무한 루프에 빠질 가능성이 낮다
단점
큐를 사용하므로 DFS보다 메모리 사용량이 더 많을 수 있으며 깊은 경로를 탐색 할 경우 시간이 오래 걸릴 수 있다.

DFS(Depth-First Search)

DFS는 깊이를 먼저 탐색하는 깊이 우선 탐색이다. 한 정점에서 시작해서 해당 경로를 완벽하게 탐색하고 다음 경로로 넘어가므로 BFS보다 탐색 시간이 조금 오래 걸릴 수 있지만 모든 노드를 완전하게 탐색할 수 있다.

장점
스택 형태로 동작하므로 메모리 사용이 적으며 깊은 경로를 빠르게 찾을 수 있다.
단점
최단 경로를 보장하지 않으며 방문한 노드를 체크하지 않으면 무한 루프에 빠질 수 있다.

그래프가 매우 클 경우?
그래프가 매우 크고 메모리가 제한적일 경우에는 DFS를 고려할 수 있으며 최단 경로가 중요하다면 메모리 사용량이 많더라도 BFS를 사용할 수 있다.

DFS와 BFS는 모든 정점을 한 번만 방문한다는 공통점이 있으며, 장단점이 있으므로 상황에 맞는 탐색 기법을 사용해야 한다. 경우에 따라서는 DFS와 BFS를 혼합해서 사용하기도 한다.

jungmin Lee

Leejungmin

이전 포스트

[자료구조/알고리즘] Stack, Queue

다음 포스트