데이터베이스 CS 정리

Jongwon·2023년 9월 3일

CAP Inno DB MVCC 데이터베이스 데이터베이스 뷰 데이터베이스 회복 정규화 트랜잭션

면접 대비 예상질문 정리

목록 보기

1/3

SQL이란?
SQL은 선언적인 언어로, 관계형 데이터베이스에 정보를 저장하고 처리하기 위한 프로그래밍 언어입니다. SQL을 통해 데이터베이스의 구조 지정, 데이터 삽입/수정/조회/삭제, 성능 향상과 최적화를 진행할 수 있습니다. SQL이 선언적 언어인 이유는 무엇을 할지에 대해서만 정의해주고, 구체적인 동작 과정은 데이터베이스의 옵티마이저에 일임하여 최적화된 방법으로 처리하도록 하기 때문입니다.

파일시스템에 비해 데이터베이스가 가지는 장점은?
데이터베이스는 여러 사용자와 응용 프로그램이 동시에 접근할 수 있고, 통합하여 관리하기 때문에 데이터의 중복을 최소화하는 동시에 데이터의 일관성을 유지할 수 있습니다. 또한 허가된 사용자들만 데이터베이스에 접근할 수 있도록 설정함으로써 데이터의 보안성도 파일시스템에 비해 높습니다. 접근 방법이 응용프로그램에 상세하게 표현되어 있는 파일 시스템과 달리 데이터데이스는 비교적 독립적으로 존재하여, 프로그램을 수정하지 않더라도 데이터의 구조를 변경할 수 있습니다.

정규화에 대해 설명하시오
정규화란 이상현상이 있는 릴레이션을 분해해 이상현상을 없애는 과정입니다. 즉, 데이터 무결성을 유지하기 위해 테이블을 분할하여 중복 데이터를 제거하는 과정입니다. 정규화를 통해 데이터베이스 구조 확장 시 재디자인을 최소화 할 수 있지만, join 연산이 많아져 응답시간이 늦어질 수 있습니다.
제1정규형은 각 컬럼은 같은 종류와 1개의 값만 가지고, 순서가 상관없어야 한다입니다.
제2정규형은 기본키의 특정 키에만 종속적인 컬럼이 없는 완전 함수적 종속성을 만족해야 한다입니다.
제3정규형은 A->B, B->C일 때 A->C가 만족하는 이행 함수적 종속을 없애는 과정입니다.
BCNF(Boyce-Codd)정규형은 모든 결정자가 후보키 집합에 포함되어야 합니다.
제4정규형은 A,B값에 따라 여러 C값이 존재하는 다치 종속을 없애는 과정입니다.
제5정규형은 분해 후 다시 조인 시 원래대로 돌아오는 조인종속을 없애는 과정입니다. A->B, A->C의 연관이 있다면 분리하게 됩니다.

이상현상(Anomaly)이란?
테이블을 잘못 설계하여 데이터를 삽입, 삭제, 수정할 때 발생하는 논리적 오류를 의미합니다. 크게 3가지 이상현상이 있습니다.

삽입이상: 데이터를 삽입할 때 특정 데이터가 존재하지 않아 삽입할 수 없는 문제
- ex) 신설학과 데이터를 넣어야 하는데, 학생이 없어 삽입을 하지 못하는 상황
갱신이상: 데이터 갱신이 일어날 때 일부만 변경하여 불일치가 발생하는 문제
- ex) 학과명이 변경되어 데이터를 변경하는데 일부만 변경한 경우
삭제이상: 데이터를 삭제할 때 원하지 않는 데이터도 삭제되는 문제
- ex) 학생 데이터를 삭제했는데 학과 데이터도 함께 삭제되어버리는 상황

함수적 종속성이란?
함수적 종속성이란 결정자 A에 의해 종속자 B가 결정되는, 어떤 속성에 의해 다른 속성의 값이 결정되는 것을 의미합니다.

완전 함수적 종속성: 결정자의 모든 애트리뷰트를 통해서만 하나의 종속자가 결정됨
부분 함수적 종속성: 결정자의 부분집합 애트리뷰트 집합을 통해서도 종속자가 결정됨
이행 함수적 종속성: A에 의해 B가 결정되고 B에 의해 C가 결정될 때, A에 의해 C가 결정됨

역정규화란?
정규화된 데이터베이스에서 성능이나 편의성을 향상시키기 위해 사용하는 전략입니다. 쓰기 성능의 하락과 중복이 있을 수 있지만 읽기 성능을 높이기 위해 사용합니다.
릴레이션 역정규화는 서로 다른 두 릴레이션 간 잦은 참조와 조인을 줄이기 위해 역정규화를 하는 릴레이션 병합과, 자주 사용하는 일부 데이터만 분리하는 릴레이션 분할(수평분할, 수직분할)입니다.
속성 역정규화는 현재 릴레이션에 없는 칼럼을 추가하여 계산을 줄이는 등에 사용하는 것을 의미합니다.

데이터베이스 무결성
데이터베이스에 저장된 데이터의 정확성, 일관성, 유효성을 지키는 것을 의미합니다. 무결성을 위한 제약조건은 아래와 같습니다.

기본키 값은 null이거나 중복된 값일 수 없다.
외래키 칼럼값은 null이거나 참조하는 테이블의 기본키 값에 존재해야 한다.
필드의 값이 무결성을 보장해야 한다. 즉, 칼럼의 타입과 일치해야 한다.
null이 올 수 없는 필드에 null이 오면 안된다.
테이블의 특정 칼럼이 고유한 값을 가져야한다면, 중복된 값을 가질 수 없다.

데이터베이스 정합성
데이터가 올바른지에 대한 유무는 상관없이 데이터들의 값이 서로 일치하는지를 판단하는 것을 정합성이라고 합니다. 무결성보다는 작은 개념으로 볼 수 있습니다.

트랜잭션의 개념과 성질은?
트랜잭션은 데이터베이스의 상태를 변화시키는 논리적 단위로, 논리적인 작업 단위를 완수하지 못하면 원상태로 되돌려 일부만 반영되는 상황을 방지하여 완전성을 보장합니다.
트랜잭션은 ACID의 성질을 가지고 있습니다.

원자성: 트랜잭션은 모두 수행되거나, 모두 수행되지 않는 경우만 존재합니다.
일관성: 트랜잭션이 완료되면 언제나 일관성있는 상태(제약조건 등)를 나타내야하고, 고정요소는 트랜잭션 전, 후로 동일해야 합니다. 중간에는 제약조건을 위배해도 상관이없다.
고립성: 트랜잭션은 수행 중에 다른 트랜잭션에서 수행 결과를 참조할 수 없습니다.
지속성: 트랜잭션은 완료 후에 영구적으로 작업의 결과가 저장되어야 합니다.

트랜잭션의 동시성 처리 이슈란?
트랜잭션의 동시성 처리 이슈란 실행시간 개선을 위해 트랜잭션을 병렬적으로 처리하는 경우에 발생합니다. 아래와 같은 문제가 발생할 수 있습니다.

Dirty Read: 커밋되지 않는 변경을 다른 트랜잭션이 읽게됨
Non Repeatable Read: Dirty Read는 일어나지 않지만 같은 값을 두 번 읽었을 때, 다른 트랜잭션의 커밋으로 인해 서로 다른 값을 가지게 됨
Lost Update: 한 트랜잭션이 읽고 수정을 하려고 하는 도중 다른 트랜잭션이 먼저 수정을 하게 된다면, 수정이 반영되지 않게됨
Phantom Read: 한 트랜잭션 내에서 같은 쿼리를 2번 실행할 때 다른 트랜잭션이 도중에 처리한 결과로 인해 서로 다른 결과가 나오게 됨

트랜잭션의 격리 수준은?
트랜잭션은 크게 4가지의 격리 수준으로 나눌 수 있습니다.

Read Uncommitted: 어떤 트랜잭션이라도 다른 트랜잭션에서 변경 중인 데이터를 읽을 수 있습니다. 위의 동시성 문제들이 발생할 수 있습니다.
Read Committed: 커밋된 데이터만 읽을 수 있는 격리 수준입니다. Dirty Read를 해결할 수 있습니다.
Repeatable Read: 같은 트랜잭션 내에서는 같은 쿼리를 반복해도 항상 동일한 결과가 나오도록 보장합니다. Inno DB에서는 Phantom Read도 해결할 수 있습니다.
Serializable: 트랜잭션 사이의 순차실행을 Lock을 통해 제공하는 격리 수준입니다. 위의 이슈들을 모두 해결할 수 있지만 성능이 저하됩니다.

트랜잭션 교착상태의 해결 방법은?
타임스탬프를 이용하여 회피할 수 있습니다. Wait-Die 방식으로 먼저 온 트랜잭션이라면 대기하고, 늦게 왔다면 취소 후 이후에 재요청하거나 Wound-Wait 방식으로 먼저 온 트랜잭션이라면 선점하고, 늦게온 트랜잭션이면 wait하는 방식을 통해 교착상태를 회피할 수 있습니다.

뷰란?
사용자에게 접근이 허용된 데이터만 보여주기 위해 하나 이상의 테이블로부터 유도된 가상 테이블입니다. 뷰를 사용함으로써 논리적 데이터 독립성을 제공할 수 있고, 데이터 관리를 간단하게 해줄 수 있습니다. 하지만 독립된 인덱스를 가질 수 없고 뷰의 정의를 변경할 수 없으며, 삽입/삭제 등의 연산에는 제약이 따릅니다.

MVCC란?(Multi-Version Concurrency Control)
Locking 방식의 동시성 문제를 해결하기 위해 등장한 개념입니다. 사용자가 데이터에 접근하는 순간의 데이터베이스의 snapshot을 읽고 해당 snapshot을 변경하게 됩니다. 변경이 완료된 데이터는 undo영역으로 들어가고, 이후 이전 데이터와 비교하여 변경된 내용을 기록한다. 단 여러 사용자의 수정으로 인해 여러 버전이 존재할 수 있는데, 이는 어플리케이션 영역에서 처리를 해야합니다.

NoSQL의 종류와 특징은?
noSQL은 정해진 규격이 없고 칼럼이 지정되지 않아 자유롭게 데이터를 삽입할 수 있다는 특징이 있습니다. 관계를 별도로 정의하지 않으며 분산처리가 훨씬 쉽습니다. 데이터베이스의 무중단 서비스와 복구 서비스를 지원합니다. 트랜잭션과 조인이 존재하지 않습니다.
noSQL의 데이터모델에는 여러가지가 존재합니다. Redis와 같은 Key-Value 데이터가 존재하고, 열 별로 연속적으로 저장하는 Column-Based 데이터, JSON이나 XML과 같은 Collection데이터 모델의 Document-Based, 데이터 간의 관계를 구성하는 Graph데이터가 있습니다.

CAP 이론이란?
Consistency: 어디에 요청해도 일관된 결과를 받아야 한다.
Availability: 언제나 응답 가능한 상태여야한다.
Partition Tolerance: 분산 시스템에서 시스템의 일부가 고장나더라도 다른 시스템에 영향을 주면 안된다.
하지만 CAP의 3가지를 모두 만족하기엔 어렵기 때문에 보통은 일관성을 포기한다고 합니다. Consistency 대신 Eventual Consistency라고, 미래의 언젠가 일관성을 이룰 수 있도록 하는 것에 목표를 가지고 있다.

Inno DB란? 장점은?
mySQL과 mariaDB를 위한 데이터베이스 엔진입니다. ACID원칙을 준수하는 트랜잭션 기능을 제공합니다. inno DB는 메모리영역, CPU영역, 디스크 스토리지 영역으로 나눌 수 있습니다. 메모리 영역에는 insert버퍼, undo영역, 로그 버퍼가 있고, 디스크 스토리지 영역에는 시스템 테이블 스페이스와 유저 테이블 스페이스가 존재합니다.
inno DB은 대용량 데이터 처리와 다수 사용자 접속에 강하고, 트랜잭션을 통한 무결성을 보장한다는 점입니다. 하지만 노드 간 체크로 인한 deadlock이 발생할 수 있고, 많은 자원을 소모하며 복구를 지원하지만 과정이 복잡합니다.

데이터베이스 회복 기법의 종류는?

로그 기반 기법은 모든 트랜잭션마다 변경 전 로그를 기록하여, undo나 redo를 통해 회복하는 방법입니다. 이는 로그만 기록하면 되기 때문에 디스크 사용량이 적습니다.
체크포인트 기반 기법은 제한된 체크포인트만 검색하여 해당 시점으로 복구하는 방법입니다. 체크포인트 사이는 여러개의 트랜잭션을 포함할 수 있습니다.
그림자페이징 기법은 현재 페이지 테이블과 디스크에 그림자 페이지 테이블을 두어, 현재 페이지 테이블에 트랜잭션이 완료되면 해당 페이지의 형상을 그림자 페이지에 복사하는 방식입니다. 단순한 페이지 교체만 이루어지면 되기 때문에 빠르지만, 알고리즘이 복잡하고 디스크 용량도 큽니다.

WAL 방식이란?
데이터베이스 수정 이전에 로그를 먼저 기록하는 방식을 의미합니다. 보통 redo와 undo정보를 모두 기록합니다. ACID성질 중 원자성과 지속성을 WAL을 통해 만족할 수 있습니다. WAL 방식은 OS의 fsync명령어를 통해 디스크에 저장을 요청하기 때문에 바로바로 저장되므로 강제종료에 대한 걱정이 없습니다.

데이터베이스의 인덱스란?
데이터베이스 테이블의 검색 속도를 향상시키기 위한 자료구조입니다. 특정 칼럼(들)에 대해 인덱스를 생성하면 인덱스를 정렬하여 저장하고, 해당 인덱스를 가지는 데이터를 오름차순으로 정렬하여 가지고 있기 때문에 Group by, Order by와 같은 연산에 유리합니다. 하지만 데이터의 삽입/수정/삭제가 발생하였을 때 다시 정렬을 해야하고, 전체 데이터의 10% 이상을 검색한다면 오히려 full scan이 더 빠릅니다. 또한 인덱스는 별도의 저장공간을 차지하기 때문에 인덱스 생성을 할 때에는 충분히 고려를 해야 합니다.

B*트리와 B+트리란?
B*트리는 Oracle DB에서 채택한 인덱싱 알고리즘 기법입니다. B-트리의 성능 개선을 이룬 트리로, 각각의 노드에는 데이터가 존재합니다. 이에 비해 B+트리는 오직 리프노드에만 데이터를 저장하고 있습니다. 그리고 리프노드는 각각이 연결리스트로 연결되어 있어, 임의탐색 뿐만이 아니라 순차탐색도 가능합니다.

클러스터링 인덱스란?
클러스터링 인덱스란 전체 테이블의 물리적인 데이터가 인덱스로 정렬되는 것을 의미합니다. 디스크로부터 메모리로 데이터를 가져오는 단위인 페이지에 맞게 데이터가 저장되어 있는데, 각 페이지 내의 데이터는 정렬된 상태를 유지하고 페이지의 주소만을 가지는 루트 페이지를 통해 참조할 수 있습니다. 물리적인 정렬이기 때문에 클러스터링 인덱스는 테이블 당 하나만 가질 수 있고, 보통은 기본키 인덱스를 기준으로 정렬하게 됩니다. 클러스터링 인덱스는 B+트리와 같은 구조로 이루어져 있습니다. 리프노드에 실제 데이터를 가지는 페이지가 위치하고 있고, 상위 노드에 해당하는 페이지에는 리프를 가리키는 포인터가 저장되어 있습니다.

Jongwon

Backend Engineer

다음 포스트

데이터베이스 CS 정리

면접 대비 예상질문 정리

JAVA CS 정리

0개의 댓글