현대 데이터 환경은 정형 데이터를 넘어서 반정형, 비정형, 고차원 데이터로 확장되고 있다. 이러한 데이터는 기존 관계형 DBMS로는 저장·검색·분석에 한계가 있으며, 이를 해결하기 위해 등장한 기술이 NoSQL, 공간 데이터베이스, 비정형 DB, 벡터 DB이다. 본 문에서는 각 기술의 개념, 특징, 기술 요소, 주요 활용 분야를 통합적으로 기술한다.
(1) 정의:
관계형 DBMS의 한계를 극복하기 위해 등장한 비관계형 데이터베이스. 유연한 스키마, 수평 확장성, 고가용성 중심.
(2) 분류 및 특징:
유형 | 주요 설명 | 대표 제품 |
---|---|---|
Key-Value형 | 단순 키와 값의 쌍 저장 | Redis, DynamoDB |
문서형 | JSON/BSON 문서 저장, 유연한 구조 | MongoDB, CouchDB |
컬럼형 | 열 기반 저장, 대용량 분석에 유리 | Cassandra, HBase |
그래프형 | 노드/엣지 기반 관계 표현 및 탐색 | Neo4j, Amazon Neptune |
(3) 주요 특징:
(1) 정의:
위치, 거리, 면적 등 지리공간 정보를 저장하고 질의할 수 있는 특화된 데이터베이스.
(2) 기술요소 및 기능:
Point
, LineString
, Polygon
ST_Distance
, ST_Contains
, ST_Within
R-Tree
, QuadTree
, Geohash
(3) 대표 제품:
(4) 활용 분야:
(1) 정의:
사전 정의된 스키마 없이 저장되는 텍스트, 이미지, 오디오, 영상 등의 비정형 데이터를 저장하고 검색하기 위한 DB.
(2) 특징:
(3) 관련 기술:
기술 스택 | 설명 |
---|---|
Hadoop + HDFS | 대용량 비정형 파일 저장 |
Elasticsearch | 텍스트 중심 인덱싱 및 검색 최적화 |
Object Storage | 파일 단위 저장 (예: Amazon S3, Azure Blob) |
Multimedia DBMS | 오디오/영상 검색 최적화 (콘텐츠 기반 검색 포함) |
(4) 활용 분야:
SNS 로그 분석, 자연어 검색, 의료영상 저장소, CCTV 영상분석 등
(1) 정의:
텍스트, 이미지, 오디오 등 비정형 데이터를 임베딩 벡터로 변환하여 저장하고 유사도 기반 검색을 수행하는 데이터베이스.
(2) 특징:
(3) 핵심 기술:
기술 요소 | 설명 |
---|---|
HNSW | 고정밀 고속 탐색 구조 |
IVF, PQ | 인덱스 최적화, 압축 기반 검색 속도 개선 |
GPU 기반 처리 | 대규모 벡터 병렬 연산 가능 |
(4) 주요 제품:
(5) 활용 분야:
NoSQL, 공간 DB, 비정형 DB, 벡터 DB는 각각 비정형성, 위치 정보, 고차원 임베딩 등 다양한 데이터 특성을 처리하기 위한 특화 기술이다. 특히 벡터 DB는 생성형 AI 및 LLM 시대에서 핵심 인프라로 부상하고 있다. 기술사는 각 기술의 장단점 및 적용 대상 도메인을 정확히 이해하고, 시스템 요구사항에 맞는 데이터 아키텍처를 설계해야 한다.