어떤 단어 → 단어에 부여된 고유한 정수값 → Embedding layer 통과 → Embedding vector/ dense vector
- 한글'은 문자 기호를 가리키는 것이며, '한국어'는 기호가 아닌 체계를 말하는 것.
--> 한글은 쉬운 문자이지만 한국어는 어려운 언어일 수 있음.
한국 사람들이 모어로 사용하는 언어.
한국은 단일 언어 사회. (Ex. 인도처럼 다언어 사회도 존재.)
--> 한국에서 태어난 사람들은 대게 한국어를 모어로 배우며 한국어로 의사소통을 하며 살아감.
모어와 모국어
- 모어는 자라면서 배운 언어로, 자신의 언어를 모어 화자로 사용할 수 있음을 의미.
- 모국어는 국적을 기준으로 화자의 모국에서 공식적으로 사용하는 언어를 의미.
--> 모어와 모국어가 동일하지 않을 수 있음.
왜 학교 문법이란 말이 붙나요?
- 참고 링크: 한국어는 정말 9품사일까?
동사와 형용사
- 동사는 사물의 움직이나 작용을 나타내는 용언.
- 형용사는 사물의 성질이나 상태를 나타내는 용언.
본 용언과 보조 용언
- 문장 내에서 쓰임에 따라 본 용언과 보조 용언으로 나눔.
- 본 용언은 주어를 서술하는 데 주된 의미를 지닌 용언으로, 보조 용언의 도움을 받음.
- 보조 용언은 본 용언 뒤에 붙어서 의미를 더해주는 용언으로 혼자 쓰일 수는 없음.
- 참고 링크: [국어] 13. 본용언과 보조용언 개념 정리, 띄어쓰기 정리
어간과 어미
- 어간은 용언이 활용할 때 변하지 않는 부분으로, 찾는 방법은 사전에 실려있는 기본형에서 '-다'를 빼준 앞부분을 보면 됨. (Ex. '졸리다' --> '졸리-')
- 어미는 어간 뒤에 붙어서 변하는 부분으로, 여러 가지 문법적인 의미를 더해줌.
규칙 활용과 불규칙 활용
- 활용은 규칙 활용과 불규칙 활용으로 나뉨.
- 규칙 활용은 어간에 어미가 붙을 때 어간과 어미의 형태가 둘다 변하지 않거나 규칙적으로 변하는 것. (Ex. '가다'의 어간 '가-' + 어미 '-니' = '가니' )
- 불규칙 활용은 용언이 활용을 할 때 어간과 어미 또는 어간, 어미 둘 다 형태가 변하는 것.
(불규칙 활용은 변환 형태가 많아 링크로 예시를 대체함. --> 용언)
지효님의 알고리즘 강의
<자료구조 마지막>
tree(트리)
- 사이클이 없는 그래프.
- 계층을 나타내는 자료구조. 높은 계층과 낮은 계층의 연결만 가지고 있음 --> 부모(parent)-자식(child) 관계/ 같은 자식관계는 sibling이라고 함.
- 뿌리(root)부터 뻗어나가는 모양을 가지고 있음.
- 아무 정점을 루트로 잡을 수 있음. --> 그 정점을 잡고 들어올린다고 생각하기.
- 루트로부터 떨어진 거리를 height라고 함. --> root에서 가장 먼 곳. dept 중 가장 큰 것.
- 트리 끝에 달려있는 것을 leaf/ leaves(복수) 이라고 함.
- 각각의 정점이 root로부터 떨어진 깊이를 dept라고 함.
- 트리의 일부에서 새로 root를 잡은 트리를 sub tree라고 함.
- 위에 있는 정점을 ancestor, 아래에 있는 정점을 descendant 이라고 함.
tree의 분류
- 자식: 그 부모가 자식을 갯수를 몇개까지 가질 수 있나? --> 이진트리(최대 자식 2개/ 보통 선호), multi way(자식 여러 개)
- 순서(order): 트리는 순서 개념을 줄 수 있음.
..--> 순서가 있는 경우:
....1. 힙: 부모와 자식과의 관계만 설정.
....2. 서치: 이진트리로 왼쪽과 오른쪽을 구분할 수 있음. L<P<R을 만족하는 트리
..--> 순서가 없는 경우도 있음.- 균형(balanced): 정점의 개수가 N이라고 했을 때, 제대로 균형을 맞춰주면 height의 길이가 log N정도 됨. 이 상태를 균형이라고 함.(차이가 가장 없음.)
..--> unbalanced한 트리도 존재함. 높이를 줄이고 싶을 때 이진트리가 최악임(자식을 2개 밖에 두지 못하기 때문.)- 적용(application): 문자열, 구간, 공간 정보, 집합, 파일 시스템 등등
..--> 민주주의는 사이클이다....띵언.....
계층이 중요한 이유
- root에 권한을 주기 위함 --> 다단계.
- 결정을 빠르게 잘 내리기 위해서.
순회
- 모든 정점과 간선을 방문하는 것.
..--> 1번 방법: 전위 순회(pre order): P L R (자기 자신을 제일 먼저)
..--> 2번 방법: 중위순회(in order): L P R (자기 자신을 중간에)
..--> 3번 방법: 후위 순회(post order): L R P (자기자신을 마지막에/ root가 가장 마지막에 나옴.)
....--> 위의 3가지 방법들이 DFS(넓이 우선 방식).
..--> 4번 방법: BFS(깊이 우선 방식).
....--> 계층적으로 처리하는 방법. 가장 높은 계층부터 순서대로.
BFS(한숨에 갈 수 있다.)와 DFS(갈 때까지 가보자.)
- 순회의 일종.
- 그래프에서도 가능. 트리에서 하면 레벨링 가능.
AVL tree
- balanced 된 서치 트리. --> height의 길이가 log N정도되고 L<P<R을 만족하는 트리 .
- k 번째인지 찾을 수 있음. --> 트리 자체로 정렬 효과를 얻을 수 있음.
- 추가나 삭제로 balanced가 깨지면 reconstruction 해야 함.
heap
- 완전 이진 트리(꽉찬 이진 트리)
- 우선 순위 큐(FPFO)를 구현하는 자료구조.
- Insert(우선순위), delete(루트), find(루트)
아이효 2021.03.27
CV
..--> 그래서 데이터 수집에서 어려움이 있으면 augmentation을 사용하는 것.
NLP