정보처리기사 실기 (2) 데이터 입출력 구현

Dodam·2023년 7월 28일

정보처리기사

[정보처리기사]

목록 보기

8/11

데이터베이스의 개요

데이터 저장소

데이터들을 논리적인 구조로 조직화하거나 물리적인 공간에 저장하는 것

데이터베이스

여러 사람이 공유하여 사용할 목적으로 중복을 배제하고 통합, 관리하는 데이터의 집합

DBMS(DataBase Management System, 데이터베이스 관리 시스템)

사용자 요구에 따라 정보를 생성해주고 데이터베이스를 관리해주는 시스템
DBMS의 필수 기능: 정의, 조작, 제어

데이터의 독립성

논리적 독립성: 응용 프로그램과 데이터베이스는 독립적이어서 데이터의 논리적 구조를 변경해도 응용 프로그램은 영향을 받지 않음
물리적 독립성: 응용 프로그램과 물리적 장치는 독립적이어서 물리 장치를 변경하더라도 응용 프로그램은 영향을 받지 않음

스키마

: 데이터 베이스의 구조와 제약 조건에 관한 전반적인 명세를 기술한 것

외부 스키마: 사용자나 응용 프로그래머가 개인적으로 필요한 데이터베이스의 논리적 구조를 정의
개념 스키마: 데이터베이스의 전체적인 논리적 구조로써 모든 사용자나 프로그램이 필요로 하는 데이터를 종합한 조직 전체의 데이터베이스
내부 스키마: 물리적 저장장치에서 본 데이터베이스 구조로써 저장될 레코드의 형식, 표현 방법, 물리적 순서 등을 나타냄

데이터베이스 설계

데이터베이스 설계의 개념

사용자의 요구를 분석하여 그에 맞게 설계하고 특정 DBMS로 데이터베이스를 구현하여 사용자들이 사용하는 것

데이터베이스 설계 순서

요구 조건 분석 - 개념적 설계 - 논리적 설계 - 물리적 설계 - 구현
개념적 설계: 개념 스키마, E-R 모델, 트랜잭션 모델링
논리적 설계: 논리 스키마 설계, 트랜잭션 인터페이스 설계, 관계형 DB - Table, 계층형 DB - Tree, 망형 DB - Graph
물리적 설계: 컴퓨터에 저장
데이터 베이스 구현: 위 단계로부터 설계된 스키마를 파일로 생성하는 과정

데이터베이스 설계 시 고려사항

무결성(=정확성), 일관성, 회복, 보안, 효율성, 데이터베이스 확장

데이터 모델의 개념

데이터 모델의 정의

현실 세계의 정보들을 컴퓨터에 표현하기 위해서 단순화, 추상화하여 체계적으로 표현한 개념적 모형

데이터 모델의 구성 요소

개체(Entity), 속성(Attribute), 관계(Relation)

데이터 모델의 종류

개념적 데이터 모델, 논리적 데이터 모델, 물리적 데이터 모델

데이터 모델에 표시할 요소

구조(Structure): 개체 타입들 간의 관계, 데이터 구조 및 정적인 성질 표현
연산(Operation): 저장된 데이터를 처리하는 작업에 대한 명세, DB를 조작하는 기본 도구
제약 조건(Constraint): 데이터의 논리적인 제약 조건

데이터 모델의 구성 요소 - 개체, 속성, 관계

개체의 정의

데이터베이스의 표현하려는 정보

개체의 특징

유형, 무형의 정보로서 서로 연관된 몇 개의 속성으로 이루어짐
유일한 식별자에 의해 식별이 가능
개체(튜플)의 수를 카디널리티(Cardinality)라고 함
개체 인스턴스: 개체를 구성하고 있는 속성들이 값을 가져 하나의 개체를 나타내는 것. 개체 어커런스(Entity occurrence)라고도 함
자료 흐름도(DFD)를 통해 업무 분석을 했을 경우에는 자료 저장소(Data Store)를 이용함

속성의 정의

DB를 구성하는 가장 작은 논리적인 단위
파일에서의 데이터 항목 또는 데이터 필드에 해당

속성의 특징

개체의 특성을 기술함
속성의 수를 차수 혹은 디그리(Degree)라고 함

속성의 종류

기본 속성: 업무 분석을 통해 정의한 속성으로 가장 많고 일반적 ex) 제품명
설계 속성: 업무상 존재하지 않지만 설계 과정에서 도출해내는 속성 ex) 제품 코드
파생 속성: 다른 속성으로부터 계산되거나 파생된 속성 ex) 제품 판매량, 판매 수익

속성의 분류

기본키 속성(Primary Key Attribute): 개체를 식별할 수 있는 속성
외래키 속성(Foreign Key Attribute): 다른 개체와의 관계에서 포함된 속성
일반 속성: 개체에 포함되어 있지만, 기본키와 외래키가 아닌 속성

관계의 정의

개체 간의 논리적인 연결

관계의 형태

1:1, 1:N, N:M 3가지 관계가 있음

E-R(개체-관계) 모델

E-R 모델의 개요

E-R 모델은 개념적 데이터 모델이 가장 대표적인 것
피터첸에 의해 제안되어 기본적인 구성 요소가 적립
데이터를 개체, 관계, 속성으로 묘사

E-R 다이어그램

E-R 모델의 기본 아이디어를 쉽게 기호를 사용하여 시각적으로 표현한 것
표기법에는 피터 첸 표기법, 정보 공학 표기법 등이 있다.

피터 첸 표기법

사각형: 개체 타입
마름모: 관계 타입
타원: 속성 타입
이중 타원: 복합 속성
밑줄 타원: 기본키 속성
복수 타원: 복합 속성
관계: 1:1, 1:N, N:M 같은 관계에 대한 대응 수

관계형 데이터베이스의 구조

관계형 데이터베이스

개체, 속성, 관계를 모두 표로 표현
간결하고 보기 편하며 다른 데이터베이스로의 변환이 용이

관계형 데이터베이스의 구조

튜플
: 릴레이션을 구성하는 각각의 행
- 튜플의 수를 카디널리티(Cardinality)라고 함
속성
: 데이터베이스를 구성하는 가장 작은 논리적인 단위
- 개체의 특성을 기술
- 속성의 수를 디그리(Degree) 또는 차수라고 함
도메인
: 속성이 취할 수 있는 값의 범위
- ex) 학년의 도메인: 1~4

릴레이션의 특징

튜플
- 똑같은 튜플이 있을 수 없음 (=모두 상이함)
- 튜플에는 순서가 없음
- 튜플의 삽입, 삭제로 인해 시간에 따라 변함
속성
- 속성의 명칭은 유일해야 하지만 속성을 구성하는 값은 다를 수 있음
- 속성에는 순서가 없음
- 속성들은 원자 값(Atomic-Value)를 가짐

관계형 데이터 모델

2차원적인 표를 이용해서 데이터의 상호 관계를 정의하는 DB 구조

관계형 데이터베이스의 제약 조건 - Key

Key의 개념

key는 데이터베이스에서 조건에 맞는 튜플을 찾거나 정렬할 때 튜플을 서로 구분할 수 있는 기준이 되는 속성

Key의 종류

후보키
- 기본키로 사용할 수 있는 속성
- 유일성과 최소성의 성질을 만족
기본키
- 후보키 중에서 선정된 Main Key로 중복된 값을 가질 수 없음
- 후보 키의 부분 집합
- NULL 값을 가질 수 없음 (=개체 무결성)
- NULL 값: 정보의 부재를 나타내기 위해 사용하는 값. 0의 값은 아님
대체키
- 후보 키가 둘 이상일 때 기본키를 제외한 나머지 후보키
슈퍼키
- 한 가지 속성일 땐 Key가 될 수 없지만 여러 속성이 뭉쳐서 Key의 속성을 가짐
- 유일성의 성질을 만족
외래키
- 다른 릴레이션의 기본키를 참조한 것
- 외래키의 값은 참조한 릴레이션의 기본키 값과 동일해야 함 (=참조 무결성)

관계형 데이터베이스의 제약조건 - 무결성

무결성의 개념

무결성은 데이터베이스에 저장된 데이터 값과 그것이 표현하는 실제 값이 일치하는 정확성을 의미

무결성의 종류

개체 무결성: 기본키를 구성하는 어떤 속성도 NULL 값이나 중복 값이면 안됨
도메인 무결성: 속성의 값이 도메인에 속한 값이어야 함
참조 무결성: 외래키의 값은 참조한 릴레이션의 기본키 값과 동일해야 함
사용자 정의 무결성: 속성 값들은 사용자가 정의한 제약 조건에 만족해야 함

무결성 강화

애플리케이션
- 데이터를 조작하는 프로그램 내에 무결성 조건을 검증하는 코드를 추가
- 사용자 정의 같은 복잡한 무결성 조건의 구현이 가능
데이터베이스 트리거
- 트리거: 데이터베이스 시스템에 이벤트가 발생할 때마다 자동으로 수행되는 절차형 SQL
제약 조건
- 데이터베이스 제약 조건을 설정하여 무결성을 유지

관계 대수 및 관계 해석

관계 데이터 언어

관계 대수: 관계형 데이터베이스에서 원하는 정보와 그 정보를 검색하기 위해 유도하는 것을 기술하는 절차적 언어
관계 해석: 관계 데이터의 연산을 표현하는 비절차적 언어

관계 대수의 연산자

Select
- 조건을 만족하는 튜플을 구하여 새로운 릴레이션을 만드는 연산
- 수평 연산이라고 함
- 연산자의 기호는 시그마(σ)를 사용
- 표기 형식: σ<조건>(R) (여기서 R은 릴레이션을 의미)
- ex) σ평균>80(성적): 성적 릴레이션에서 평균값이 80 이상인 튜플을 구함
Project
- 속성만 추출하여 새로운 릴레이션을 만드는 연산
- 수직 연산이라고 함
- 연산 결과에 중복이 발생하면 제거
- 연산자의 기호는 파이(π)를 사용
- 표기 형식: π<조건>(R)
- ex) π이름, 평균(성적): 성적 릴레이션에서 이름, 평균 속성을 추출
Join
- 두 릴레이션을 합쳐서 새로운 릴레이션을 만드는 연산
- Join의 결과로 만들어진 릴레이션의 차수는 두 차수의 합
- Join의 결과는 교차곱(Cartesian Product)을 수행 후 Select 한 것과 같음
- 연산자의 기호는 ⨝를 사용
- 표기 형식: R⨝키 속성 r=키 속성 sS
- ex) 성적⨝이름=이름 명부: 성적 릴레이션과 명부 릴레이션을 이름 속성을 기준으로 합침

자연 조인
: Join의 조건이 같을 때 동일한 속성이 두 번 나타나 중복된 속성을 제거하여 한 번만 표기하는 방법으로, 자연 조인이 성립되려면 두 릴레이션의 속성명과 도메인이 같아야 함
Division
- R⊃S인 두 릴레이션이 있을 때, R의 속성이 S의 속성의 값을 모두 가진 튜플에서 S가 가진 속성을 제외한 속성만을 구하는 연산
- 연산자의 기호는 ÷를 사용
- 표기 형식: R [속성 r ÷ 속성 s]S
- ex) 성적 [평균 ÷ 기준] 기준
일반 집합 연산자
- 합집합(∪): 두 릴레이션의 튜플의 합집합. 중복되는 튜플은 제거
- 교집합(∩): 두 릴레이션의 튜플의 교집합
- 차집합(−): 두 릴레이션의 튜플의 차집합
- 교차곱(×): 두 릴레이션의 튜플들의 순서쌍. 차수(Degree)는 서로 더한 값. 카디널리티(Cardinality)는 서로 곱한 값

이상 / 함수적 종속

이상(Anomaly)

사용자의 의도와는 상관없이 데이터가 삽입, 삭제, 갱신되는 현상
삽입 이상: 데이터가 삽입될 때 의도하지 않는 값들로 인해 삽입할 수 없게 되는 현상
삭제 이상: 데이터가 삭제될 때 의도하지 않는 값들도 함께 삭제되는 현상
갱신 이상: 데이터를 갱신할 때 일부만 갱신되어 정보에 불일치성이 생기는 현상

함수적 종속

속성에 대한 종속을 표현하는 것으로 속성에 대한 부분 집합을 이루게 되는 관계를 설명
완전 함수적 종속: 기본키에 의해서 속성이 결정
부분 함수적 종속: 기본키의 일부에 의해 속성이 결정

정규화(Normalization)

정규화의 개념

관계형 데이터베이스에서 정확성을 더욱 유지하기 위해 스키마를 쪼개는 과정
데이터베이스의 논리적 설계 단계에서 수행

정규화의 목적

데이터 구조의 안정성 및 무결성을 유지
이상의 발생 방지 및 자료 저장 공간의 최소화

정규화 과정

1NF - 2NF - 3NF - BCNF - 4NF - 5NF
1NF(제1 정규형)
: 릴레이션에 속한 모든 값들이 원자 값으로만 구성
2NF(제2 정규형)
: 기본키가 아닌 모든 속성이 기본키에 대하여 완전 함수적 종속을 만족
- 완전 함수적 종속: 기본키에 의해서 속성이 결정
- 부분 함수적 종속: 기본키의 일부에 의해 속성이 결정
ex) '학번'과 '과목 코드'가 기본키인 릴레이션이 있을 때,
과목 점수는 기본키(학번, 과목 코드)를 가지고 알 수 있음 = 완전 함수적 종속
이름은 기본키의 일부(학번)를 가지고 알 수 있음 = 부분 함수적 종속
3NF(제3 정규형)
: 기본키가 아닌 모든 속성이 기본키에 대해 이행적 종속을 만족하지 않음
이행적 종속 : A→B, B→C일 때 A→C를 만족하는 관계
BCNF(Boyce-Codd 정규형)
: 결정자가 모두 후보키
4NF(제4 정규형)
: 릴레이션에 다치 종속이 성립하는 경우, 모든 속성이 함수적 종속 관계를 만족
5NF(제5 정규형)
: 모든 조인 종속이 후보키를 통해서만 성립

반정규화(Denormalization)

반정규화의 개념

정규화된 데이터를 다시 통합, 중복, 분리하는 과정으로 의도적으로 정규화 원칙을 위배
과도한 정규화로 성능이 떨어졌을 때 실행

반정규화의 종류

테이블 통합
- 하나의 테이블로 합쳐 사용하는 것이 성능 향상에 도움이 될 경우 수행
- Not NULL, Default, Check 등의 제약조건을 설계하기 어려움
테이블 분할
- 테이블을 수평 또는 수직으로 분할
중복 테이블 추가
- 여러 테이블에서 데이터를 추출 해서 사용해야 하거나 다른 서버에 저장된 테이블을 이용해야 하는 경우 수행
중복 속성 추가
- 조인해서 데이터를 처리할 때 데이터를 조회하는 경로를 단축하기 위해 자주 사용하는 속성을 하나 더 추가

시스템 카탈로그

시스템 카탈로그의 의미

시스템 그 자체에 관련이 있는 다양한 객체에 관한 정보를 포함하는 시스템 데이터베이스
데이터 사전(Data Dictionary)이라고도 함

시스템 카탈로그 저장 정보

시스템 카탈로그에 저장되는 정보를 메타 데이터라고 함
메타 데이터: 데이터에 대한 설명. 메타 데이터가 모이면 데이터 사전이 됨
메타 데이터의 유형
- 데이터 베이스 객체 정보: Table, Index, View 등의 구조 및 통계 정보
- 사용자 정보
- 테이블의 무결성 제약 조건 정보
- 함수, 프로시저, 트리거 등에 대한 정보

시스템 카탈로그의 특징

시스템 테이블로 구성되어 있어 SQL문으로 검색해 볼 수 있음
DML(INSERT, DELETE, UPDATE) 문으로 갱신이 불가능

트랜잭션 및 CRUD 분석

트랜잭션의 정의

데이터베이스의 상태를 변환시키는 하나의 논리적인 기능을 수행하기 위한 작업 단위 또는 한꺼번에 수행되어야 할 일련의 연산들을 의미
데이터베이스 시스팀에서 병행 제어 및 회복 작업 시 처리되는 작업의 논리적인 단위
사용자가 시스템에 대한 서비스 요구 시 시스템이 응답하기 위한 상태 변환 과정의 작업 단위

트랜잭션의 특성

원자성(Atomicity)
- all or nothing
- 데이터베이스에 반영되도록 완전히 완료 아니면 전혀 반영되지 않도록 복구되어야 함
- 어느 하나라도 오류가 발생하면 트랜잭션 전부가 취소되어야 함
일관성(Consistency)
- 문법을 일괄적으로 맞춰야 함
- 트랜잭션을 성공적으로 완료하면 언제나 일관성 있는 데이터베이스 상태로 변환
- 시스템이 가지고 있는 고정 요소는 트랜잭션 수행 전과 후의 상태가 같아야 함
독립성(Isolation)
- 하나의 트랜잭션 연산 중에는 다른 트랜잭션이 관여하면 안 됨
- 수행 중인 트랜잭션은 완전히 완료될 때까지 다른 트랜잭션에서 수행 결과를 참조할 수 없음
지속성(Durability)
- 성공적으로 완료된 트랜잭션의 결과는 영구적으로 유지, 반영되어야 함

CRUD 분석

데이터베이스의 테이블에 변화를 주는 트랜잭션 연산 중 생성(Create), 읽기(Read), 갱신(Update), 삭제(Delete)의 연산에 대해 CRUD 매트릭스를 작성하여 분석하는 것
테이블에 발생되는 트랜잭션의 주기별 발생 횟수를 파악하고 연관된 테이블들을 분석하면 테이블에 저장되는 데이터의 양을 유추할 수 있음

CRUD 매트릭스

2차원 표로 행에는 프로세스, 열에는 테이블을, 행과 열이 만나는 위치에는 프로세스가 테이블에 발생시키는 변화를 표시하는 업무 프로세스와 데이터 간 상관 분석표
CRUD 매트릭스를 통해 프로세스의 트랜잭션이 테이블에 수행하는 작업을 검증
CRUD 매트릭스의 각 셀에는 C, R, U, D가 들어가고, 복수의 작업 시 우선순위는 C > D > U > R을 적용
CRUD 매트릭스가 완성되면 C, R, U, D 중 어느 것도 적히지 않는 행이나 열, C나 R이 없는 행을 확인하여 불필요하거나 누락된 테이블 또는 프로세스를 찾음

트랜잭션 분석

CRUD 매트릭스를 기반으로 테이블에 발생하는 트랜잭션 양을 분석하고 테이블에 저장되는 데이터의 양을 유추하고 이를 근거로 DB 용량을 산정, DB 구조를 최적화하는 것

트랜잭션 분석서

단위 프로세스와 CRUD 매트릭스를 이용하여 작성
구성 요소에는 단위 프로세스, CRUD 연산, 테이블명, 칼럼명, 테이블 참조 횟수, 트랜잭션 수, 발생 주기 등

인덱스 설계

인덱스의 개념

데이터 레코드를 빠르게 접근하기 위해 키값, 포인터 쌍으로 구성되는 데이터 구조
책의 목차와 유사
데이터가 저장된 물리적 구조와 밀접한 관계가 있음
파일의 레코드에 대한 액세스를 빠르게 수행할 수 있음
인덱스가 없으면 특정한 값을 찾기 위해 모든 데이터 페이지를 확인하는 TABLE SCAN이 발생
TABLE SCAN : 데이터가 나올 때까지 모든 레코드를 순차적으로 읽는 것
레코드의 삽입과 삭제가 수시로 일어나는 경우에는 인덱스의 개수를 최소로 하는 것이 효율적
클러스터드 인덱스: 인덱스 키의 순서에 따라 데이터가 정렬되어 저장되는 방식
넌클러스터드 인덱스: 인덱스의 키 값만 정렬되어 있을 뿐 실제 데이터는 정렬되지 않는 방식

트리 기반 인덱스

인덱스를 저장하는 블록들이 트리 구조를 이루고 있는 것으로, 상용 DBMS에서는 트리 구조 기반의 B+ 트리 인덱스를 주로 활용
B 트리 인덱스
- 일반적으로 사용하는 인덱스 방식
- 루트 노드에서 하위 노드로 키값의 크기를 비교하면서 데이터를 검색
- 모든 리프 토드의 레벨은 같음
B+ 트리 인덱스
- 단말 노드가 아닌 노드로 구성된 인덱스 세트와 단말 노드로만 구성된 순차 세트로 구분
- 인덱스 세트에 있는 노드들은 단말 노드에 있는 키 값을 찾아갈 수 있는 경로로만 제공
- 순차 세트에 있는 단말 노드가 해당 데이터 레코드의 주소를 가리킴
- 인덱스 세트에 있는 모든 키 값이 단말 노드에 다시 나타나므로 단말 노드만을 이용한 순차 처리 가능

비트맵 인덱스

인덱스 칼럼의 데이터를 Bit 값인 0 또는 1로 변환하여 인덱스 키로 사용하는 방법
키 값을 포함하는 로우(Row)의 주소를 제공
데이터가 Bit로 구성되어 있어 효율적인 논리 연산이 가능하고 저장 공간이 작음

함수 기반 인덱스

칼럼의 값 대신 칼럼의 특정 함수나 수식을 적용하여 산출된 값을 사용
B+ 트리 인덱스 또는 비트맵 인덱스를 생성하여 사용
데이터를 입력하거나 수정할 때 함수를 적용하기 때문에 부하가 발생할 수 있음
사용자 정의 함수를 사용했을 경우 시스템 함수보다 부하가 더 큼
대소문자, 띄어쓰기 등에 상관없이 조회할 때 유용하게 사용

비트맵 조인 인덱스

다수의 조인된 객체로 구성된 인덱스

도메인 인덱스

개발자가 필요한 인덱스를 직접 만들어 사용하는 것으로, 확장형 인덱스라고도 함

인덱스 설계 순서

인덱스의 대상 테이블이나 칼럼 등을 선정
인덱스의 효율성을 검토하여 인덱스 최적화 수행
인덱스 정의서 작성

인덱스 테이블 선정 기준

MULTI BLOCK READ 수에 따라 판단
MULTI BLOCK READ : 테이블 액세스 시 메모리에 한 번에 읽어 들일 수 있는 블록의 수
랜덤 액세스가 빈번한 테이블
특정 범위나 특정 순서로 데이터 조회가 필요한 텐이블
다른 테이블과 순차적 조인이 발생되는 테이블

인덱스 설계 시 고려사항

새로 추가되는 인덱스는 기존 액세스 경로에 영향을 미칠 수 있음
인덱스를 지나치게 만들면 오버헤드 발생
넓은 범위를 인덱스로 처리하면 많은 오버헤드 발생
인덱스를 만들면 추가적인 저장공간 필요
인덱스와 테이블 데이터의 저장 공간이 분리되도록 설계

뷰 설계

뷰의 개요

사용자에게 접근이 허용된 자료만을 제한적으로 보여주기 위해 하나 이상의 기본 테이블로부터 유도된 이름을 가지는 가상 테이블
물리적으로 존재하지는 않지만 사용자에게는 있는 것처럼 간주됨
데이터 보정 작업, 처리 과정 시험 등 임시적인 작업을 위한 용도로 활용
조인문의 최소화로 사용자의 편의성을 최대화함

뷰의 특징

기본 테이블과 같은 형태의 구조를 사용하고 조작도 기본 테이블과 거의 같음
가상 테이블이기 때문에 물리적으로 구현되어 있지 않음
데이터의 논리적 독립성을 제공할 수 있음
필요한 데이터만 뷰로 정의해서 처리할 수 있기 때문에 관리가 용이하고 명령문이 간단해짐
뷰를 통해서만 데이터에 접근할 경우, 뷰에 나타나지 않는 데이터를 안전하게 보호하는 효율적인 기법으로 사용할 수 있음
뷰가 정의된 기본 테이블이나 뷰를 삭제 시, 그 테이블이나 뷰를 기초로 정의된 다른 뷰도 자동으로 삭제

뷰의 장단점

장점
- 논리적 데이터 독립성 제공
- 동일 데이터에 대해 동시에 여러 사용자의 상이한 요구를 지원
- 사용자의 데이터 관리가 용이
- 접근 제어를 통한 자동 보안 제공
단점
- 독립적인 인덱스를 가질 수 없음
- 뷰의 정의 변경 불가
- 뷰로 구성된 내용에 대해 INSERT, DELETE, UPDATE 연산에 제약이 따름

뷰 설계 순서

대상 테이블 선정 - 대상 칼럼 선정 - 정의서 작성

뷰 설계 시 고려사항

테이블 구조가 단순화될 수 있도록 반복적으로 조인을 설정하여 사용하거나 동일한 조건절을 사용하는 테이블을 뷰로 생성
동일한 테이블이라도 업무에 따라 테이블을 이용하는 부분이 달라질 수 있으므로 사용할 데이터를 다양한 관점에서 제시
데이터의 보안을 유지하며 설계

클러스터 설계

클러스터의 개요

데이터 저장 시 데이터 액세스 효율을 향상시키기 위해 동일한 성격의 데이터를 데이터 블록에 저장하는 물리적 저장 방법
클러스터링 키로 지정된 칼럼 값의 순서대로 저장되고 여러 개의 테이블이 하나의 클러스터에 저장

클러스터의 특징

데이터 조회 속도는 향상시키지만 데이터 입력, 수정, 삭제에 대한 성능은 저하시킴
데이터의 분포도가 넓을수록 유리
대용량을 처리하는 트랜잭션은 전체 테이블을 스캔하는 일이 자주 발생하므로 클러스터링을 지양
파티셔닝된 테이블에는 적용할 수 없음

파티션 설계

파티션의 개요

대용량의 테이블이나 인덱스를 작은 논리적 단위인 파티션으로 나누는 것
대용량 DB의 경우 테이블들을 작은 단위로 나눠 분산시키면 성능 저하를 방지하고 데이터 관리가 용이함
데이터 처리는 테이블 단위, 데이터 저장은 파티션 별로 수행

파티션의 장단점

장점
- 데이터 접근 시 액세스의 범위를 줄여 쿼리의 성능 향상
- 데이터가 분산되어 저장되므로 디스크의 성능 향상
- 파티션별로 백업 및 복구를 수행하므로 속도 향상
- 시스템 장애 시 데이터 손상 정도를 최소화
- 데이터 가용성 향상
- 파티션 단위로 입출력 분산
단점
- 하나의 테이블을 세분화하여 관리하기 때문에 세심한 관리가 요구됨
- 테이블 간 조인에 대한 비용 증가
- 용량이 작은 테이블에 파티셔닝을 수행하면 성능이 저하됨

파티션의 종류

범위 분할: 지정한 열의 값을 기준으로 분할
해시 분할: 해시 함수를 적용한 결과 값에 따라 데이터를 분할
조합 분할: 범위 분할로 분할한 다음 해시 함수를 적용하여 다시 분할

파티션 키 선정 시 고려사항

파티션 키는 테이블 접근 유형에 따라 파티셔닝이 이루어지도록 선정
데이터 관리의 용이성을 위해 이력성 데이터는 파티션 생성 주기와 소멸 주기를 일치시켜야 함
매일 생성되는 날짜 칼럼, 백업의 기준이 되는 날짜 칼럼, 파티션 간 이동이 없는 칼럼, I/O 병목을 줄일 수 있는 데이터 분포가 양호한 칼럼 등을 파티션 키로 선정

데이터베이스 보안/암호화

데이터베이스 보안의 개요

데이터베이스의 일부분 또는 전체에 권한이 없는 사용자가 액세스 하는 것을 금지하기 위해 사용되는 기술

암호화 / 복호화

암호화는 데이터를 보낼 때 송신자가 지정한 수신자 외는 그 내용을 알 수 없도록 평문을 암호문으로 변환
암호화 과정: 암호화되지 않은 평문을 정보 보호를 위해 암호문으로 바꿈
복호화 과정: 암호문을 원래의 평문으로 바꿈

개인키 / 공개키 암호 방식

암호화 방식의 키와 복호화 방식의 키가 같을 때
- 개인키 / 비밀키 / 대칭키 암호 방식
- 종류: 전위 기법, 대수 기법, 합성 기법(DES)
암호화 방식의 키와 복호화 방식의 키가 다를 때
- 공개키 / 비대칭키
- RSA 기법

스토리지

스토리지의 개요

단일 디스크로 처리할 수 없는 대용량의 데이터를 저장하기 위해 서버와 저장장치를 연결하는 기술

DAS(Direct Attached Storage)

서버와 저장장치를 전용 케이블로 직접 연결하는 방식
서버에서 저장장치를 관리
저장장치를 직접 연결하므로 속도가 빠르고 설치 및 운영이 쉬움
다른 서버에서 스토리지에 접근하여 사용 불가

NAS(Network Attached Storage)

서버와 저장장치를 네트워크를 통해 연결하는 방식
별도의 파일 관리 기능이 있는 NAS Storage가 내장된 저장장치를 직접 관리
DAS에 비해 확장성 및 유연성이 좋음
서버들이 자유롭게 스토리지에 접근하여 파일 공유

SAN(Storage Area Network)

DAS의 빠른 처리와 NAS의 파일 공유 장점을 혼합한 방식
서버와 저장장치를 연결하는 전용 네트워크를 별도로 구성
파이버 채널(FC) 스위치를 이용하여 네트워크를 구성
파이버 채널 : 장치 간 데이터 전송 속도를 기가바이트로 높이기 위한 네트워크 기술
서버나 저장장치를 광케이블로 연결하므로 처리 속도가 빠름
서버들이 저장장치 및 파일을 자유롭게 공유

논리 데이터 모델의 물리 데이터 모델 변환

테이블

데이터를 저장하는 데이터베이스의 가장 기본적인 오브젝트

엔티티를 테이블로 변환

논리 데이터 모델에서 정의된 엔티티를 물리 데이터 모델의 테이블로 변환
테이블과 엔티티 명칭은 동일하게 하는 것을 권고
테이블은 소스코드의 가독성을 위해 영문명을 사용
표준화된 용어 사용 지향
변환 규칙

슈퍼타입 / 서브타입을 테이블로 변환

슈퍼타입과 서브타입은 논리 데이터 모델에서 이용되는 형태이므로 물리 데이터 모델을 설계할 때는 테이블로 변환
슈퍼타입 기준 테이블 변환
- 서브타입을 슈퍼타입에 통합하여 하나의 테이블로 만듦
- 데이터의 액세스가 상대적으로 용이함
- 뷰를 이용하여 각각의 서브타입만을 액세스하거나 수정할 수 있음
- SQL 문장 구성이 단순함
- 디스크의 저장 공간 증가
- 인덱스의 효율이 떨어짐
서브타입 기준 테이블 변환
- 슈퍼타입의 속성들을 각각의 서브타입에 추가하여 서브타입들을 개별적인 테이블로 만듦
- 각 서브타입 속성들의 선택 사양이 명확한 경우 유리함
- 여러 개의 테이블로 통합하므로 테이블당 크기가 감소하여 전체 테이블 스캔 시 유리함
- 복잡한 처리를 하는 SQL의 통합이 어려움
개별타입 기준 테이블 변환
- 슈퍼타입과 서브타입들을 각각의 개별적인 테이블로 변환
- 슈퍼타입과 서브타입 테이블 사이에는 각각 1:1 관계가 형성
- 저장공간이 상대적으로 작음

속성을 칼럼으로 변환

논리 데이터 모델에서 정의한 속성을 물리 데이터 모델의 컬럼으로 변환
일반 속성 변환
- 엔티티의 속성을 테이블의 각각의 컬럼으로 변환
- 칼럼명은 SQL 예약어 사용을 피하고 가능한 한 짧게 지정

관계를 외래키로 변환

논리 데이터 모델에서 정의된 관계는 기본키와 이를 참조하는 기본키로 변환

자료구조

자료 구조의 정의

프로그램에서 사용하기 위한 자료를 기억장치의 공간 내에 저장하는 방법과 자료 간의 관계, 처리 방법 등을 저장공간의 효율성 및 실행 간의 신속성을 높이기 위하여 연구 분석하는 것

자료 구조의 분류

배열
- 동일한 자료형의 데이터들이 같은 크기로 나열되어 순서를 갖고 있는 집합
- 첨자를 이용하여 데이터에 접근
- 첨자의 개수에 따라 n차원 배열이라 부름
선형 리스트
일정한 순서에 의해 나열된 자료 구조
(1) 연속 리스트
- 배열을 이용한 선형 리스트
- 중간에 데이터를 삽입하기 위해 연속된 빈 공간이 있어야 하며 삽입, 삭제 시 자료의 이동이 필요
(2) 연결 리스트
- 자료 항목의 순서에 따라 노드의 포인터 부분을 이용하여 서로 연결시킨 자료 구조
- 연결을 위한 포인터를 찾는 시간이 필요해 접근 속도가 느림
- 노드의 삽입, 삭제 작업이 용이
- 노드 부분 때문에 연속 리스트에 비해 기억 공간의 효율이 좋지 않음
스택
- 리스트의 한 쪽으로 자료의 삽입, 삭제가 이루어짐
- LIFO(Last In First Out)의 구조를 가지고 있음
- 오버플로우(overflow): 기억 공간이 모두 차있는 상태에서 데이터를 삽입하면 일어나는 현상
- 언더플로우(underflow): 기억 공간이 비어있는 상태에서 데이터를 삭제하면 일어나는 현상
- Top: 스택에 가장 마지막으로 삽입된 자료의 위치
- Bottom: 스택의 가장 바닥
큐
- 리스트의 한쪽에서는 삽입, 다른 한쪽에서는 삭제가 이루어짐
- FIFO(First In First Out)의 구조를 가지고 있음
- F(Front): 먼저 삽입된 자료의 기억 공간을 가리키는 포인터
- R(Rear): 마지막에 삽입된 자료의 기억 공간을 가리키는 포인터
트리
- 노드와 가지를 이용하여 사이클 없이 구성한 그래프의 특수 형태
- 디그리: 노드에서 뻗어나온 가지의 개수
- 단말노드 / 잎 노드: 자식이 없는 노드
- 트리의 디그리: 노드들의 디그리 중 가장 많은 수

정렬

버블 정렬

인접한 두 요소를 비교하면서 오름차순 / 내림차순에 따라 값을 뒤로 보냄
오름차순: 큰 값을 뒤로 보냄
내림차순: 작은 값을 뒤로 보냄
마지막까지 비교했다면 맨 뒤를 제외하고 다시 반복하는 방식으로 정렬될 때까지 반복

선택 정렬

정렬할 결과를 담을 공간을 따로 마련해놓고 정렬 대상에서 처음부터 끝까지 조회해서 가장 큰(작은) 값을 정렬 결과 공간에 옮기는 방법
위 방법은 메모리 공간을 따로 요구한다는 단점이 있어 아래와 같이 개선
처음부터 끝까지 조회해서 가장 작은 값을 가장 앞으로 이동(교환)
가장 앞은 이미 만족했으니 그 뒤부터 가장 끝까지 조회하는 방식으로 반복

삽입 정렬

정렬이 된 영역과 정렬이 안 된 영역을 나눔
순차적으로 정렬이 안 된 영역에서 정렬이 된 영역으로 넘겨주고 넘겨줄 때 이미 정렬이 되어 있는 영역과 비교하여 저장
정렬이 안 된 영역에서 정렬이 된 영역으로 넘길 때, 정렬 위치에 데이터를 옮기면 데이터는 한 칸씩 뒤로 옮겨야 함
옮길 위치를 찾고 해당 위치부터 뒤로 한 칸씩 옮기는 연산이 필요한데, 구분을 지어 구현하기보다 하나로 묶는 것이 편의성을 높일 수 있음
정렬된 영역의 뒤부터 하나씩 비교하면서 아니라면 뒤로 한 칸 옮기고, 맞다면 그 위치에 삽입하는 방식으로 구현

힙 정렬

힙의 특성을 이용해서 데이터를 힙에 넣고 그대로 꺼내서 정렬 시키는 방법
힙에 데이터를 넣을 때 우선순위를 기반으로 데이터를 넣기 때문에 그대로 이용하면 됨

병합 정렬

Divide and Conquer(분할 정복) 알고리즘을 기반으로 하는 정렬
데이터를 한 번에 정렬하지 않고 분할하여 정렬하고 다시 합치는 방법
데이터를 정렬하기 쉬운 단계까지 분할하는 것이 효율적 (데이터가 1개가 될 때까지 분할)
다시 합칠 때 정렬을 위한 연산을 수행

퀵 정렬

1단계 (초기화)
- 퀵 정렬을 위해서는 left / right / low / high / pivot이 필요
- left, right: 데이터의 시작과 끝
- pivot: 중심점, 기준
- low, high: pivot을 제외한 다음 위치
2단계 (low와 high의 이동)
- low: 피벗보다 정렬의 우선순위가 낮은 데이터를 만날 때까지 이동
- high: 피벗보다 정렬의 우선순위가 높은 데이터를 만날 때까지 이동
- low와 high의 이동은 별개
3단계 (low와 high의 교환)
- 2단계의 low와 high 위치의 데이터를 교환
- low와 high가 역전할 때까지 계속 이동
4단계 (pivot의 이동)
- 3단계를 실행함으로써 high 다음의 데이터들은 pivot보다 우선순위가 낮음을 확인
- high가 내려오면서 우선순위가 높은 것들은 자리를 바꿈
- high의 데이터와 pivot의 데이터를 교환
- 그럼으로써 pivot의 데이터는 자리를 잡고 pivot의 데이터를 기준으로 좌우측은 섞일 필요가 없어짐
- 이제 pivot의 데이터(high 위치)를 기준으로 좌우측으로 나누어서 위의 단계를 반복
- left가 right보다 커질 때까지 반복 → 더이상 쪼갤 영역이 없음

Dodam

⏰ Good things take time

이전 포스트

정보처리기사 실기 (7) 애플리케이션 테스트 관리

다음 포스트