트리의 개념과 특징, 용어에 대해 이해합니다.
트리의 실사용 예제를 보고, 트리가 어떻게 이용이 되는지 이해합니다.
직접 구현한 트리가 어떤 식으로 동작하는지 이해하고, 해당 클래스 내의 로직을 이해합니다.
이진 탐색 트리의 개념과 종류 특징에 대해 이해합니다.
직접 구현한 이진 탐색 트리가 어떤 식으로 동작하는지 이해하고, 해당 클래스 내의 로직을 이해합니다.
전위 순회, 중위 순회, 후위 순회의 개념과 각 순회가 어떤 식으로 탐색하는지 이해합니다.
전위 순회, 중위 순회, 후위 순회가 어느 상황에서 사용되는지 이해합니다.
그래프의 개념과 구조, 표현 방식에 대해 이해합니다.
매트릭스(행렬)와 리스트의 장단점에 대해 이해합니다.
그래프의 실제 사용 예제를 보고, 어떤 식으로 그래프가 사용되는지 이해합니다.
직접 구현한 그래프를 구현하는 데 필요한 것이 무엇이었는지 이해하고, 로직을 파악합니다.
너비 우선 탐색과 깊이 우선 탐색의 개념과 특징에 대해 이해합니다.
너비 우선 탐색과 깊이 우선 탐색의 장단점에 대해 파악합니다.
그래프가 매우 크다면 어떤 탐색 기법을 고려해야 하는지 이해합니다.
그래프의 규모가 작고 depth가 얕다면 어떤 탐색 기법을 고려해야 하는지 이해합니다.
학습목표가 엄청나다...!
그래프의 여러 구조 중 단방향 그래프의 한 구조로, 하나의 뿌리로부터 가지가 사방으로 뻗은 형태가 나무와 닮았다고 해서 트리 구조라고 부른다.
트리 구조는 데이터가 바로 아래에 있는 하나 이상의 데이터에 한 개의 경로와 하나의 방향으로만 연결된 계층적 자료구조이다.
데이터를 순차적으로 나열시킨 선형 구조가 아니라, 하나의 데이터 아래에 여러 개의 데이터가 존재할 수 있는 비선형 구조이다.
트리 구조는 계층적으로 표현이 되고, 아래로만 뻗어나가기 때문에 사이클(cycle)이 없다.
트리 구조는 루트(Root)라는 하나의 꼭짓점 데이터를 시작으로 여러 개의 데이터를 간선(edge)으로 연결한다.
이때 각 데이터를 노드(Node)라고 하며, 두 개의 노드가 상하 계층으로 연결되면 부모/자식 관계를 맺게 된다.
(자식이 없는 노드는 나무의 잎과 같다고 하여 리프 노드(Leaf Node)라고 부른다.)
자료구조 Tree는 깊이와 높이, 레벨 등을 측정할 수 있다.
트리 구조에서는 루트로부터 하위 계층의 특정 노드까지의 깊이(depth)를 표현할 수 있다.
루트노드의 깊이는 0.
즉, 위 그림에서 루트 A
의 깊이는 0이고, B와 C
의 깊이는 1, 그리고 D, E, F, G
의 깊이는 2가 되겠다.
트리 구조에서 같은 깊이를 가지고 있는 노드를 묶어서 레벨(level)로 표현할 수 있다.
루트 A
의 level은 1이다. B와 C
의 level은 2다. D, E, F, G
의 레벨은 3이 된다.
같은 레벨에 나란히 있는 노드를 형제 노드(Sibling Node)라고 칭한다.
트리 구조에서 리프 노드를 기준으로 루트까지의 높이(height)를 표현할 수 있다.
리프 노드와 직간접적으로 연결된 노드의 높이를 표현하며, 부모 노드는 자식 노드의 가장 높은 높이 값에 +1한 값을 높이로 가진다.
트리 구조의 높이를 표현할 때는 각 리프 노드의 높이를 0으로 놓는다.
위 그림에서 H, I, E, F, J
의 높이는 0이고 D와 G
의 높이는 1이다.
B와 C
의 높이는 2가 된다. 이때 B
는 D
의 height + 1을, C
는 G
의 height + 1을 높이로 가진다. 따라서, 루트 A
의 높이는 3이 된다.
트리 구조의 루트에서 뻗어 나오는 큰 트리의 내부에, 트리 구조를 갖춘 작은 트리를 서브 트리라고 부른다. (D, H, I)
로 이루어진 작은 트리도 서브 트리이고, (B, D, E)
나 (C, F, G, J)
도 서브 트리이다.
용어정리
- 노드(Node) : 트리 구조를 이루는 모든 개별 데이터
- 루트(Root) : 트리 구조의 시작점이 되는 노드
- 부모 노드(Parent node) : 두 노드가 상하관계로 연결되어 있을 때 상대적으로 루트에서 가까운 노드
- 자식 노드(Child node) : 두 노드가 상하관계로 연결되어 있을 때 상대적으로 루트에서 먼 노드
- 리프(Leaf) : 트리 구조의 끝 지점이고, 자식 노드가 없는 노드
컴퓨터의 디렉토리 구조
: 모든 폴더는 하나의 폴더(루트 폴더, /)에서 시작되어, 가지를 뻗어나가는 모양새를 띈다. 이게 바로 트리 구조!
월드컵 토너먼트 대진표, 가계도(족보), 조직도 등
자식 노드가 최대 두 개인 노드로 구성된 트리
이진트리는 자료의 삽입, 삭제 방법에 따라 정 이진트리(Full binary tree), 완전 이진트리(Complete binary tree), 포화 이진트리(Perfect binary tree)로 나뉜다.
정 이진트리(Full binary tree) : 각 노드가 0개 혹은 2개의 자식 노드를 갖는다.
포화 이진트리(Perfect binary tree) : 정 이진트리이면서 완전 이진트리인 경우.
모든 리프 노드의 레벨이 동일하고, 모든 레벨이 가득 채워져 있는 트리이다.
완전 이진트리(Complete binary tree) : 마지막 레벨을 제외한 모든 노드가 가득 차 있어야 하고, 마지막 레벨의 노드는 전부 차 있지 않아도 되지만 왼쪽이 채워져야 한다.
이진트리는 이진 탐색 트리와 이진 힙 구현에 사용되며, 효율적인 검색과 정렬을 위해 사용된다.
이진 탐색의 알고리즘이 이진트리에 적용된 형태의 트리
정렬된 데이터 중에서 특정한 값을 찾기 위한 탐색 알고리즘 중 하나
오름차순으로 정렬된 정수의 배열을 같은 크기의 두 부분 배열로 나눈 후,(중앙을 기준으로 쪼갠 뒤) 두 부분 중 탐색이 필요한 부분에서만 탐색하도록 탐색 범위를 제한하여 원하는 값을 찾는 알고리즘.
수행과정
- 배열의 중간에 내가 찾고자 하는 값이 있는지 확인한다.
- 중간값이 내가 찾고자 하는 값이 아닐 경우, 오름차순으로 정렬된 배열에서 중간값보다 큰 값인지 작은 값인지 판단한다.
- 찾고자 하는 값이 중간값보다 작은 값일 경우, 배열의 맨 앞부터 중간값 전까지의 범위를 탐색 범위로 잡고 탐색을 반복 수행한다.
- 찾고자 하는 값이 중간값보다 큰 값일 경우, 배열의 중간값의 다음 값부터 맨 마지막까지를 탐색 범위로 잡고 탐색을 반복 수행한다.
트리의 루트노드는 이진 탐색에서 리스트의 중간값이 된다.
각 노드에 중복되지 않는 키(Key)가 있다.
루트노드의 왼쪽 서브 트리는 해당 노드의 키보다 작은 키를 갖는 노드들로 이루어져 있다.
루트노드의 오른쪽 서브 트리는 해당 노드의 키보다 큰 키를 갖는 노드들로 이루어져 있다.
좌우 서브 트리도 모두 이진 탐색 트리여야 한다.
즉 이진 탐색 트리(Binary Search Tree)는
모든 왼쪽 자식의 값이 루트나 부모보다 작고, 모든 오른쪽 자식의 값이 루트나 부모보다 큰 값을 가지는 특징!
이진 탐색 트리의 탐색은 다음과 같은 과정을 거친다.
이 과정을 찾고자 하는 값을 찾을 때까지 반복한다.
만약 값을 찾지 못한다면 그대로 연산을 종료한다.
이러한 탐색 과정을 거치면 최대 트리의 높이(h)만큼 탐색을 진행한다. 따라서 복잡도는 o(h).
즉, 트리 안의 값을 찾는다면 무조건 트리의 높이(h) 이하의 탐색이 이뤄지게 되는 것!
여기서 하나 알아둬야 할 점은, 트리 안에 찾고자 하는 값이 없더라도 최대 h번(트리의 높이) 만큼의 연산 및 탐색이 진행된다는 것.
특정 목적을 위해 트리의 모든 노드를 한 번씩 방문하는 것을 트리 순회라고 한다.
트리 구조는 계층적 구조라는 특별한 특징을 가지기 때문에, 모든 노드를 순회하는 방법엔 전위 순회, 중위 순회, 후위 순회로 크게 세 가지가 있다.
이 순회 방식들은 모두 노드를 순회할 때 왼쪽부터 오른쪽으로 조회한다는 공통점이 있다.
차이점도 알아보자.
루트를 가장 먼저 방문한다.
루트에서 시작해 왼쪽의 노드들을 순차적으로 둘러본 뒤,
왼쪽의 노드 탐색이 끝나면 오른쪽 노드를 탐색한다.
즉 부모 노드가 제일 먼저 방문되는 순회 방식.
루트를 가운데에 두고 순회한다.
제일 왼쪽 끝에 있는 노드부터 순회하기 시작하여, 루트를 기준으로 왼쪽에 있는 노드의 순회가 끝나면 루트를 거쳐 오른쪽에 있는 노드로 이동하여 마저 탐색한다.
부모 노드가 서브 트리의 방문 중간에 방문되는 순회 방식이다.
루트를 가장 마지막에 순회한다.
제일 왼쪽 끝에 있는 노드부터 순회하기 시작하여, 루트를 거치지 않고 오른쪽으로 이동해 순회한 뒤, 제일 마지막에 루트를 방문한다.
루트를 방문하는 기준이 아닌 트리의 레벨 기준으로 노드들을 방문하는 순회 방법
루트 노드를 시작으로 아래로 뻗어나가며 노드들을 방문하며 루트 노드의 레벨이 1이라고 했을 때 아래로 내려갈수록 레벨은 증가하는 특징을 보인다.
동일한 레벨에 여러 노드가 존재할 경우 왼쪽에서 오른쪽 순서로 노드를 방문한다.
여러 개의 점이 서로 복잡하게 연결된 관계를 표현한 자료구조
자료구조의 그래프는 마치 거미줄처럼 여러 개의 점이 선으로 이어져 있는 복잡한 네트워크망과 같은 모습을 가지고 있다.
두 정점을 바로 이어주는 간선이 있다면 이 두 정점은 "인접하다"
서로 다른 정점들이 인접한 상태인지를 2차원 배열의 형태로 나타낸 행렬.
정점이 이어져 있다면 1(true), 이어져 있지 않다면 0(false)으로 표시한 일종의 표
(만약 가중치 그래프라면 1 대신 관계에서 의미 있는 값을 저장)
- A의 진출차수는 1개: A ➡ C
[0][2] === 1 // A([0])는 C([2])로 가는 진출차수가 있다(1)
- B의 진출차수는 2개: B ➡ A, B ➡ C
[1][0] === 1 // B([1])는 A([0])로 가는 진출차수가 있다(1)
[1][2] === 1 // B([1])는 C([2])로 가는 진출차수가 있다(1)
- C의 진출차수는 1개: C ➡ A
[2][0] === 1 // C([2])는 A([0])로 가는 진출차수가 있다(1)
한 개의 큰 표와 같은 모습을 한 인접 행렬은 두 정점 사이에 관계가 있는지, 없는지 확인하기에 용이하다
가장 빠른 경로(shortest path)를 찾고자 할 때 주로 사용된다.
최단 경로를 구하는 과정(BFS)에서는 그래프 탐색이 빈번하게 발생하는데, 이때 인접행렬이 인접리스트에 비해 조회 성능이 우수하다.
인접행렬의 경우 인덱스를 직접 접근하여 조회가 O(1)로 이루어지기 때문
반면, 인접리스트의 경우 각 row를 선형 조회해야 하므로 노드의 수가 N일 경우 O(N)의 시간이 소요됩니다.
정리하자면, 인접리스트의 경우 A 노드에서 B 노드로 이동하는 경우만 해도 O(N)의 시간이 소요되며, 더불어 최단 경로를 구하는 과정 자체에서도 시간이 많이 소요되기 때문에 인덱스를 통한 직접 접근이 가능한 인접행렬이 최단경로를 찾는 데 더 유리한 측면이 있다는 것!
각 정점이 어떤 정점과 인접하는지를 리스트의 형태로 표현
각 정점마다 하나의 리스트를 가지고 있으며,
이 리스트는 자신과 인접한 다른 정점을 담고 있다.
메모리를 효율적으로 사용하고 싶을 때 인접 리스트를 사용한다.
정점 (vertex): 노드(node)라고도 하며 데이터가 저장되는 그래프의 기본 원소
간선 (edge): 정점 간의 관계. (정점을 이어주는 선)
인접 정점 (adjacent vertex): 하나의 정점에서 간선에 의해 직접 연결된 정점
가중치 그래프 (weighted Graph): 연결의 강도(추가적인 정보, ex. 서울-부산으로 가는 거리 등)가 얼마나 되는지 적혀 있는 그래프
비 가중치 그래프 (unweighted Graph): 연결의 강도가 적혀 있지 않는 그래프
무향(무방향) 그래프 (undirected graph): 내비게이션 예제는 무향(무방향) 그래프. 서울에서 부산으로 갈 수 있듯, 반대로 부산에서 서울로 가는 것도 가능하기 때문. 하지만 단방향(directed) 그래프로 구현된다면 서울에서 부산으로 갈 수 있지만, 부산에서 서울로 가는 것은 불가능(혹은 그 반대). 만약 두 지점이 일방통행 도로로 이어져 있다면 단방향인 간선으로 표현할 수 있다.
진입차수 (in-degree) / 진출차수 (out-degree): 한 정점에 진입(들어오는 간선)하고 진출(나가는 간선)하는 간선이 몇 개인지를 나타낸다.
인접 (adjacency): 두 정점 간에 간선이 직접 이어져 있다면 이 두 정점은 인접한 정점이다.
자기 루프 (self loop): 정점에서 진출하는 간선이 곧바로 자기 자신에게 진입하는 경우 자기 루프를 가졌다라고 표현한다. 다른 정점을 거치지 않는다는 것이 특징.
사이클 (cycle): 한 정점에서 출발하여 다시 해당 정점으로 돌아갈 수 있다면 사이클이 있다고 표현한다. 내비게이션 그래프는 서울 —> 대전 —> 부산 —> 서울로 이동이 가능하므로, 사이클이 존재하는 그래프이다.