정보처리기사 실기 (2) 데이터 입출력 구현

Dodam·2023년 7월 28일
0

[정보처리기사]

목록 보기
8/11
post-thumbnail

데이터베이스의 개요

데이터 저장소

  • 데이터들을 논리적인 구조로 조직화하거나 물리적인 공간에 저장하는 것

데이터베이스

  • 여러 사람이 공유하여 사용할 목적으로 중복을 배제하고 통합, 관리하는 데이터의 집합

DBMS(DataBase Management System, 데이터베이스 관리 시스템)

  • 사용자 요구에 따라 정보를 생성해주고 데이터베이스를 관리해주는 시스템
  • DBMS의 필수 기능: 정의, 조작, 제어

데이터의 독립성

  • 논리적 독립성: 응용 프로그램과 데이터베이스는 독립적이어서 데이터의 논리적 구조를 변경해도 응용 프로그램은 영향을 받지 않음
  • 물리적 독립성: 응용 프로그램과 물리적 장치는 독립적이어서 물리 장치를 변경하더라도 응용 프로그램은 영향을 받지 않음

스키마

: 데이터 베이스의 구조와 제약 조건에 관한 전반적인 명세를 기술한 것

  • 외부 스키마: 사용자나 응용 프로그래머가 개인적으로 필요한 데이터베이스의 논리적 구조를 정의
  • 개념 스키마: 데이터베이스의 전체적인 논리적 구조로써 모든 사용자나 프로그램이 필요로 하는 데이터를 종합한 조직 전체의 데이터베이스
  • 내부 스키마: 물리적 저장장치에서 본 데이터베이스 구조로써 저장될 레코드의 형식, 표현 방법, 물리적 순서 등을 나타냄

데이터베이스 설계

데이터베이스 설계의 개념

  • 사용자의 요구를 분석하여 그에 맞게 설계하고 특정 DBMS로 데이터베이스를 구현하여 사용자들이 사용하는 것

데이터베이스 설계 순서

  • 요구 조건 분석 - 개념적 설계 - 논리적 설계 - 물리적 설계 - 구현
  • 개념적 설계: 개념 스키마, E-R 모델, 트랜잭션 모델링
  • 논리적 설계: 논리 스키마 설계, 트랜잭션 인터페이스 설계, 관계형 DB - Table, 계층형 DB - Tree, 망형 DB - Graph
  • 물리적 설계: 컴퓨터에 저장
  • 데이터 베이스 구현: 위 단계로부터 설계된 스키마를 파일로 생성하는 과정

데이터베이스 설계 시 고려사항

  • 무결성(=정확성), 일관성, 회복, 보안, 효율성, 데이터베이스 확장

데이터 모델의 개념

데이터 모델의 정의

  • 현실 세계의 정보들을 컴퓨터에 표현하기 위해서 단순화, 추상화하여 체계적으로 표현한 개념적 모형

데이터 모델의 구성 요소

  • 개체(Entity), 속성(Attribute), 관계(Relation)

데이터 모델의 종류

  • 개념적 데이터 모델, 논리적 데이터 모델, 물리적 데이터 모델

데이터 모델에 표시할 요소

  • 구조(Structure): 개체 타입들 간의 관계, 데이터 구조 및 정적인 성질 표현
  • 연산(Operation): 저장된 데이터를 처리하는 작업에 대한 명세, DB를 조작하는 기본 도구
  • 제약 조건(Constraint): 데이터의 논리적인 제약 조건

데이터 모델의 구성 요소 - 개체, 속성, 관계

개체의 정의

  • 데이터베이스의 표현하려는 정보

개체의 특징

  • 유형, 무형의 정보로서 서로 연관된 몇 개의 속성으로 이루어짐
  • 유일한 식별자에 의해 식별이 가능
  • 개체(튜플)의 수를 카디널리티(Cardinality)라고 함
  • 개체 인스턴스: 개체를 구성하고 있는 속성들이 값을 가져 하나의 개체를 나타내는 것. 개체 어커런스(Entity occurrence)라고도 함
  • 자료 흐름도(DFD)를 통해 업무 분석을 했을 경우에는 자료 저장소(Data Store)를 이용함

속성의 정의

  • DB를 구성하는 가장 작은 논리적인 단위
  • 파일에서의 데이터 항목 또는 데이터 필드에 해당

속성의 특징

  • 개체의 특성을 기술함
  • 속성의 수를 차수 혹은 디그리(Degree)라고 함

속성의 종류

  • 기본 속성: 업무 분석을 통해 정의한 속성으로 가장 많고 일반적 ex) 제품명
  • 설계 속성: 업무상 존재하지 않지만 설계 과정에서 도출해내는 속성 ex) 제품 코드
  • 파생 속성: 다른 속성으로부터 계산되거나 파생된 속성 ex) 제품 판매량, 판매 수익

속성의 분류

  • 기본키 속성(Primary Key Attribute): 개체를 식별할 수 있는 속성
  • 외래키 속성(Foreign Key Attribute): 다른 개체와의 관계에서 포함된 속성
  • 일반 속성: 개체에 포함되어 있지만, 기본키와 외래키가 아닌 속성

관계의 정의

  • 개체 간의 논리적인 연결

관계의 형태

  • 1:1, 1:N, N:M 3가지 관계가 있음

E-R(개체-관계) 모델

E-R 모델의 개요

  • E-R 모델은 개념적 데이터 모델이 가장 대표적인 것
  • 피터첸에 의해 제안되어 기본적인 구성 요소가 적립
  • 데이터를 개체, 관계, 속성으로 묘사

E-R 다이어그램

  • E-R 모델의 기본 아이디어를 쉽게 기호를 사용하여 시각적으로 표현한 것
  • 표기법에는 피터 첸 표기법, 정보 공학 표기법 등이 있다.

피터 첸 표기법

  • 사각형: 개체 타입
  • 마름모: 관계 타입
  • 타원: 속성 타입
  • 이중 타원: 복합 속성
  • 밑줄 타원: 기본키 속성
  • 복수 타원: 복합 속성
  • 관계: 1:1, 1:N, N:M 같은 관계에 대한 대응 수

관계형 데이터베이스의 구조

관계형 데이터베이스

  • 개체, 속성, 관계를 모두 표로 표현
  • 간결하고 보기 편하며 다른 데이터베이스로의 변환이 용이

관계형 데이터베이스의 구조

  • 튜플
    : 릴레이션을 구성하는 각각의 행
    • 튜플의 수를 카디널리티(Cardinality)라고 함
  • 속성
    : 데이터베이스를 구성하는 가장 작은 논리적인 단위
    • 개체의 특성을 기술
    • 속성의 수를 디그리(Degree) 또는 차수라고 함
  • 도메인
    : 속성이 취할 수 있는 값의 범위
    • ex) 학년의 도메인: 1~4

릴레이션의 특징

  • 튜플
    • 똑같은 튜플이 있을 수 없음 (=모두 상이함)
    • 튜플에는 순서가 없음
    • 튜플의 삽입, 삭제로 인해 시간에 따라 변함
  • 속성
    • 속성의 명칭은 유일해야 하지만 속성을 구성하는 값은 다를 수 있음
    • 속성에는 순서가 없음
    • 속성들은 원자 값(Atomic-Value)를 가짐

관계형 데이터 모델

  • 2차원적인 표를 이용해서 데이터의 상호 관계를 정의하는 DB 구조

관계형 데이터베이스의 제약 조건 - Key

Key의 개념

  • key는 데이터베이스에서 조건에 맞는 튜플을 찾거나 정렬할 때 튜플을 서로 구분할 수 있는 기준이 되는 속성

Key의 종류

  • 후보키
    - 기본키로 사용할 수 있는 속성
    - 유일성과 최소성의 성질을 만족

  • 기본키
    - 후보키 중에서 선정된 Main Key로 중복된 값을 가질 수 없음
    - 후보 키의 부분 집합
    - NULL 값을 가질 수 없음 (=개체 무결성)
    - NULL 값: 정보의 부재를 나타내기 위해 사용하는 값. 0의 값은 아님

  • 대체키
    - 후보 키가 둘 이상일 때 기본키를 제외한 나머지 후보키

  • 슈퍼키
    - 한 가지 속성일 땐 Key가 될 수 없지만 여러 속성이 뭉쳐서 Key의 속성을 가짐
    - 유일성의 성질을 만족

  • 외래키
    - 다른 릴레이션의 기본키를 참조한 것
    - 외래키의 값은 참조한 릴레이션의 기본키 값과 동일해야 함 (=참조 무결성)

관계형 데이터베이스의 제약조건 - 무결성

무결성의 개념

  • 무결성은 데이터베이스에 저장된 데이터 값과 그것이 표현하는 실제 값이 일치하는 정확성을 의미

무결성의 종류

  • 개체 무결성: 기본키를 구성하는 어떤 속성도 NULL 값이나 중복 값이면 안됨
  • 도메인 무결성: 속성의 값이 도메인에 속한 값이어야 함
  • 참조 무결성: 외래키의 값은 참조한 릴레이션의 기본키 값과 동일해야 함
  • 사용자 정의 무결성: 속성 값들은 사용자가 정의한 제약 조건에 만족해야 함

무결성 강화

  • 애플리케이션
    • 데이터를 조작하는 프로그램 내에 무결성 조건을 검증하는 코드를 추가
    • 사용자 정의 같은 복잡한 무결성 조건의 구현이 가능

  • 데이터베이스 트리거
    • 트리거: 데이터베이스 시스템에 이벤트가 발생할 때마다 자동으로 수행되는 절차형 SQL

  • 제약 조건
    • 데이터베이스 제약 조건을 설정하여 무결성을 유지

관계 대수 및 관계 해석

관계 데이터 언어

  • 관계 대수: 관계형 데이터베이스에서 원하는 정보와 그 정보를 검색하기 위해 유도하는 것을 기술하는 절차적 언어
  • 관계 해석: 관계 데이터의 연산을 표현하는 비절차적 언어

관계 대수의 연산자

  • Select
    - 조건을 만족하는 튜플을 구하여 새로운 릴레이션을 만드는 연산
    - 수평 연산이라고 함
    - 연산자의 기호는 시그마(σ)를 사용
    - 표기 형식: σ<조건>(R) (여기서 R은 릴레이션을 의미)
    - ex) σ평균>80(성적): 성적 릴레이션에서 평균값이 80 이상인 튜플을 구함

  • Project
    - 속성만 추출하여 새로운 릴레이션을 만드는 연산
    - 수직 연산이라고 함
    - 연산 결과에 중복이 발생하면 제거
    - 연산자의 기호는 파이(π)를 사용
    - 표기 형식: π<조건>(R)
    - ex) π이름, 평균(성적): 성적 릴레이션에서 이름, 평균 속성을 추출

  • Join
    - 두 릴레이션을 합쳐서 새로운 릴레이션을 만드는 연산
    - Join의 결과로 만들어진 릴레이션의 차수는 두 차수의 합
    - Join의 결과는 교차곱(Cartesian Product)을 수행 후 Select 한 것과 같음
    - 연산자의 기호는 ⨝를 사용
    - 표기 형식: R⨝키 속성 r=키 속성 sS
    - ex) 성적⨝이름=이름 명부: 성적 릴레이션과 명부 릴레이션을 이름 속성을 기준으로 합침

    자연 조인
    : Join의 조건이 같을 때 동일한 속성이 두 번 나타나 중복된 속성을 제거하여 한 번만 표기하는 방법으로, 자연 조인이 성립되려면 두 릴레이션의 속성명과 도메인이 같아야 함

  • Division
    - R⊃S인 두 릴레이션이 있을 때, R의 속성이 S의 속성의 값을 모두 가진 튜플에서 S가 가진 속성을 제외한 속성만을 구하는 연산
    - 연산자의 기호는 ÷를 사용
    - 표기 형식: R [속성 r ÷ 속성 s]S
    - ex) 성적 [평균 ÷ 기준] 기준

  • 일반 집합 연산자
    - 합집합(∪): 두 릴레이션의 튜플의 합집합. 중복되는 튜플은 제거
    - 교집합(∩): 두 릴레이션의 튜플의 교집합
    - 차집합(−): 두 릴레이션의 튜플의 차집합
    - 교차곱(×): 두 릴레이션의 튜플들의 순서쌍. 차수(Degree)는 서로 더한 값. 카디널리티(Cardinality)는 서로 곱한 값

이상 / 함수적 종속

이상(Anomaly)

  • 사용자의 의도와는 상관없이 데이터가 삽입, 삭제, 갱신되는 현상
  • 삽입 이상: 데이터가 삽입될 때 의도하지 않는 값들로 인해 삽입할 수 없게 되는 현상
  • 삭제 이상: 데이터가 삭제될 때 의도하지 않는 값들도 함께 삭제되는 현상
  • 갱신 이상: 데이터를 갱신할 때 일부만 갱신되어 정보에 불일치성이 생기는 현상

함수적 종속

  • 속성에 대한 종속을 표현하는 것으로 속성에 대한 부분 집합을 이루게 되는 관계를 설명
  • 완전 함수적 종속: 기본키에 의해서 속성이 결정
  • 부분 함수적 종속: 기본키의 일부에 의해 속성이 결정

정규화(Normalization)

정규화의 개념

  • 관계형 데이터베이스에서 정확성을 더욱 유지하기 위해 스키마를 쪼개는 과정
  • 데이터베이스의 논리적 설계 단계에서 수행

정규화의 목적

  • 데이터 구조의 안정성 및 무결성을 유지
  • 이상의 발생 방지 및 자료 저장 공간의 최소화

정규화 과정

  • 1NF - 2NF - 3NF - BCNF - 4NF - 5NF

  • 1NF(제1 정규형)
    : 릴레이션에 속한 모든 값들이 원자 값으로만 구성

  • 2NF(제2 정규형)
    : 기본키가 아닌 모든 속성이 기본키에 대하여 완전 함수적 종속을 만족
    - 완전 함수적 종속: 기본키에 의해서 속성이 결정
    - 부분 함수적 종속: 기본키의 일부에 의해 속성이 결정
    ex) '학번'과 '과목 코드'가 기본키인 릴레이션이 있을 때,
    과목 점수는 기본키(학번, 과목 코드)를 가지고 알 수 있음 = 완전 함수적 종속
    이름은 기본키의 일부(학번)를 가지고 알 수 있음 = 부분 함수적 종속

  • 3NF(제3 정규형)
    : 기본키가 아닌 모든 속성이 기본키에 대해 이행적 종속을 만족하지 않음
    이행적 종속 : A→B, B→C일 때 A→C를 만족하는 관계

  • BCNF(Boyce-Codd 정규형)
    : 결정자가 모두 후보키

  • 4NF(제4 정규형)
    : 릴레이션에 다치 종속이 성립하는 경우, 모든 속성이 함수적 종속 관계를 만족

  • 5NF(제5 정규형)
    : 모든 조인 종속이 후보키를 통해서만 성립


반정규화(Denormalization)

반정규화의 개념

  • 정규화된 데이터를 다시 통합, 중복, 분리하는 과정으로 의도적으로 정규화 원칙을 위배
  • 과도한 정규화로 성능이 떨어졌을 때 실행

반정규화의 종류

  • 테이블 통합
    - 하나의 테이블로 합쳐 사용하는 것이 성능 향상에 도움이 될 경우 수행
    - Not NULL, Default, Check 등의 제약조건을 설계하기 어려움

  • 테이블 분할
    - 테이블을 수평 또는 수직으로 분할

  • 중복 테이블 추가
    - 여러 테이블에서 데이터를 추출 해서 사용해야 하거나 다른 서버에 저장된 테이블을 이용해야 하는 경우 수행

  • 중복 속성 추가
    - 조인해서 데이터를 처리할 때 데이터를 조회하는 경로를 단축하기 위해 자주 사용하는 속성을 하나 더 추가

시스템 카탈로그

시스템 카탈로그의 의미

  • 시스템 그 자체에 관련이 있는 다양한 객체에 관한 정보를 포함하는 시스템 데이터베이스
  • 데이터 사전(Data Dictionary)이라고도 함

시스템 카탈로그 저장 정보

  • 시스템 카탈로그에 저장되는 정보를 메타 데이터라고 함
  • 메타 데이터: 데이터에 대한 설명. 메타 데이터가 모이면 데이터 사전이 됨
  • 메타 데이터의 유형
    - 데이터 베이스 객체 정보: Table, Index, View 등의 구조 및 통계 정보
    - 사용자 정보
    - 테이블의 무결성 제약 조건 정보
    - 함수, 프로시저, 트리거 등에 대한 정보

시스템 카탈로그의 특징

  • 시스템 테이블로 구성되어 있어 SQL문으로 검색해 볼 수 있음
  • DML(INSERT, DELETE, UPDATE) 문으로 갱신이 불가능

트랜잭션 및 CRUD 분석

트랜잭션의 정의

  • 데이터베이스의 상태를 변환시키는 하나의 논리적인 기능을 수행하기 위한 작업 단위 또는 한꺼번에 수행되어야 할 일련의 연산들을 의미
  • 데이터베이스 시스팀에서 병행 제어 및 회복 작업 시 처리되는 작업의 논리적인 단위
  • 사용자가 시스템에 대한 서비스 요구 시 시스템이 응답하기 위한 상태 변환 과정의 작업 단위

트랜잭션의 특성

  • 원자성(Atomicity)
    - all or nothing
    - 데이터베이스에 반영되도록 완전히 완료 아니면 전혀 반영되지 않도록 복구되어야 함
    - 어느 하나라도 오류가 발생하면 트랜잭션 전부가 취소되어야 함

  • 일관성(Consistency)
    - 문법을 일괄적으로 맞춰야 함
    - 트랜잭션을 성공적으로 완료하면 언제나 일관성 있는 데이터베이스 상태로 변환
    - 시스템이 가지고 있는 고정 요소는 트랜잭션 수행 전과 후의 상태가 같아야 함

  • 독립성(Isolation)
    - 하나의 트랜잭션 연산 중에는 다른 트랜잭션이 관여하면 안 됨
    - 수행 중인 트랜잭션은 완전히 완료될 때까지 다른 트랜잭션에서 수행 결과를 참조할 수 없음

  • 지속성(Durability)
    - 성공적으로 완료된 트랜잭션의 결과는 영구적으로 유지, 반영되어야 함

CRUD 분석

  • 데이터베이스의 테이블에 변화를 주는 트랜잭션 연산 중 생성(Create), 읽기(Read), 갱신(Update), 삭제(Delete)의 연산에 대해 CRUD 매트릭스를 작성하여 분석하는 것
  • 테이블에 발생되는 트랜잭션의 주기별 발생 횟수를 파악하고 연관된 테이블들을 분석하면 테이블에 저장되는 데이터의 양을 유추할 수 있음

CRUD 매트릭스

  • 2차원 표로 행에는 프로세스, 열에는 테이블을, 행과 열이 만나는 위치에는 프로세스가 테이블에 발생시키는 변화를 표시하는 업무 프로세스와 데이터 간 상관 분석표
  • CRUD 매트릭스를 통해 프로세스의 트랜잭션이 테이블에 수행하는 작업을 검증
  • CRUD 매트릭스의 각 셀에는 C, R, U, D가 들어가고, 복수의 작업 시 우선순위는 C > D > U > R을 적용
  • CRUD 매트릭스가 완성되면 C, R, U, D 중 어느 것도 적히지 않는 행이나 열, C나 R이 없는 행을 확인하여 불필요하거나 누락된 테이블 또는 프로세스를 찾음

트랜잭션 분석

  • CRUD 매트릭스를 기반으로 테이블에 발생하는 트랜잭션 양을 분석하고 테이블에 저장되는 데이터의 양을 유추하고 이를 근거로 DB 용량을 산정, DB 구조를 최적화하는 것

트랜잭션 분석서

  • 단위 프로세스와 CRUD 매트릭스를 이용하여 작성
  • 구성 요소에는 단위 프로세스, CRUD 연산, 테이블명, 칼럼명, 테이블 참조 횟수, 트랜잭션 수, 발생 주기 등

인덱스 설계

인덱스의 개념

  • 데이터 레코드를 빠르게 접근하기 위해 키값, 포인터 쌍으로 구성되는 데이터 구조
  • 책의 목차와 유사
  • 데이터가 저장된 물리적 구조와 밀접한 관계가 있음
  • 파일의 레코드에 대한 액세스를 빠르게 수행할 수 있음
  • 인덱스가 없으면 특정한 값을 찾기 위해 모든 데이터 페이지를 확인하는 TABLE SCAN이 발생
    TABLE SCAN : 데이터가 나올 때까지 모든 레코드를 순차적으로 읽는 것
  • 레코드의 삽입과 삭제가 수시로 일어나는 경우에는 인덱스의 개수를 최소로 하는 것이 효율적
  • 클러스터드 인덱스: 인덱스 키의 순서에 따라 데이터가 정렬되어 저장되는 방식
  • 넌클러스터드 인덱스: 인덱스의 키 값만 정렬되어 있을 뿐 실제 데이터는 정렬되지 않는 방식

트리 기반 인덱스

  • 인덱스를 저장하는 블록들이 트리 구조를 이루고 있는 것으로, 상용 DBMS에서는 트리 구조 기반의 B+ 트리 인덱스를 주로 활용
  • B 트리 인덱스
    - 일반적으로 사용하는 인덱스 방식
    - 루트 노드에서 하위 노드로 키값의 크기를 비교하면서 데이터를 검색
    - 모든 리프 토드의 레벨은 같음
  • B+ 트리 인덱스
    - 단말 노드가 아닌 노드로 구성된 인덱스 세트와 단말 노드로만 구성된 순차 세트로 구분
    - 인덱스 세트에 있는 노드들은 단말 노드에 있는 키 값을 찾아갈 수 있는 경로로만 제공
    - 순차 세트에 있는 단말 노드가 해당 데이터 레코드의 주소를 가리킴
    - 인덱스 세트에 있는 모든 키 값이 단말 노드에 다시 나타나므로 단말 노드만을 이용한 순차 처리 가능

비트맵 인덱스

  • 인덱스 칼럼의 데이터를 Bit 값인 0 또는 1로 변환하여 인덱스 키로 사용하는 방법
  • 키 값을 포함하는 로우(Row)의 주소를 제공
  • 데이터가 Bit로 구성되어 있어 효율적인 논리 연산이 가능하고 저장 공간이 작음

함수 기반 인덱스

  • 칼럼의 값 대신 칼럼의 특정 함수나 수식을 적용하여 산출된 값을 사용
  • B+ 트리 인덱스 또는 비트맵 인덱스를 생성하여 사용
  • 데이터를 입력하거나 수정할 때 함수를 적용하기 때문에 부하가 발생할 수 있음
  • 사용자 정의 함수를 사용했을 경우 시스템 함수보다 부하가 더 큼
  • 대소문자, 띄어쓰기 등에 상관없이 조회할 때 유용하게 사용

비트맵 조인 인덱스

  • 다수의 조인된 객체로 구성된 인덱스

도메인 인덱스

  • 개발자가 필요한 인덱스를 직접 만들어 사용하는 것으로, 확장형 인덱스라고도 함

인덱스 설계 순서

  1. 인덱스의 대상 테이블이나 칼럼 등을 선정
  2. 인덱스의 효율성을 검토하여 인덱스 최적화 수행
  3. 인덱스 정의서 작성

인덱스 테이블 선정 기준

  • MULTI BLOCK READ 수에 따라 판단
    MULTI BLOCK READ : 테이블 액세스 시 메모리에 한 번에 읽어 들일 수 있는 블록의 수
  • 랜덤 액세스가 빈번한 테이블
  • 특정 범위나 특정 순서로 데이터 조회가 필요한 텐이블
  • 다른 테이블과 순차적 조인이 발생되는 테이블

인덱스 설계 시 고려사항

  • 새로 추가되는 인덱스는 기존 액세스 경로에 영향을 미칠 수 있음
  • 인덱스를 지나치게 만들면 오버헤드 발생
  • 넓은 범위를 인덱스로 처리하면 많은 오버헤드 발생
  • 인덱스를 만들면 추가적인 저장공간 필요
  • 인덱스와 테이블 데이터의 저장 공간이 분리되도록 설계

뷰 설계

뷰의 개요

  • 사용자에게 접근이 허용된 자료만을 제한적으로 보여주기 위해 하나 이상의 기본 테이블로부터 유도된 이름을 가지는 가상 테이블
  • 물리적으로 존재하지는 않지만 사용자에게는 있는 것처럼 간주됨
  • 데이터 보정 작업, 처리 과정 시험 등 임시적인 작업을 위한 용도로 활용
  • 조인문의 최소화로 사용자의 편의성을 최대화함

뷰의 특징

  • 기본 테이블과 같은 형태의 구조를 사용하고 조작도 기본 테이블과 거의 같음
  • 가상 테이블이기 때문에 물리적으로 구현되어 있지 않음
  • 데이터의 논리적 독립성을 제공할 수 있음
  • 필요한 데이터만 뷰로 정의해서 처리할 수 있기 때문에 관리가 용이하고 명령문이 간단해짐
  • 뷰를 통해서만 데이터에 접근할 경우, 뷰에 나타나지 않는 데이터를 안전하게 보호하는 효율적인 기법으로 사용할 수 있음
  • 뷰가 정의된 기본 테이블이나 뷰를 삭제 시, 그 테이블이나 뷰를 기초로 정의된 다른 뷰도 자동으로 삭제

뷰의 장단점

  • 장점
    - 논리적 데이터 독립성 제공
    - 동일 데이터에 대해 동시에 여러 사용자의 상이한 요구를 지원
    - 사용자의 데이터 관리가 용이
    - 접근 제어를 통한 자동 보안 제공

  • 단점
    - 독립적인 인덱스를 가질 수 없음
    - 뷰의 정의 변경 불가
    - 뷰로 구성된 내용에 대해 INSERT, DELETE, UPDATE 연산에 제약이 따름

뷰 설계 순서

  • 대상 테이블 선정 - 대상 칼럼 선정 - 정의서 작성

뷰 설계 시 고려사항

  • 테이블 구조가 단순화될 수 있도록 반복적으로 조인을 설정하여 사용하거나 동일한 조건절을 사용하는 테이블을 뷰로 생성
  • 동일한 테이블이라도 업무에 따라 테이블을 이용하는 부분이 달라질 수 있으므로 사용할 데이터를 다양한 관점에서 제시
  • 데이터의 보안을 유지하며 설계

클러스터 설계

클러스터의 개요

  • 데이터 저장 시 데이터 액세스 효율을 향상시키기 위해 동일한 성격의 데이터를 데이터 블록에 저장하는 물리적 저장 방법
  • 클러스터링 키로 지정된 칼럼 값의 순서대로 저장되고 여러 개의 테이블이 하나의 클러스터에 저장

클러스터의 특징

  • 데이터 조회 속도는 향상시키지만 데이터 입력, 수정, 삭제에 대한 성능은 저하시킴
  • 데이터의 분포도가 넓을수록 유리
  • 대용량을 처리하는 트랜잭션은 전체 테이블을 스캔하는 일이 자주 발생하므로 클러스터링을 지양
  • 파티셔닝된 테이블에는 적용할 수 없음

파티션 설계

파티션의 개요

  • 대용량의 테이블이나 인덱스를 작은 논리적 단위인 파티션으로 나누는 것
  • 대용량 DB의 경우 테이블들을 작은 단위로 나눠 분산시키면 성능 저하를 방지하고 데이터 관리가 용이함
  • 데이터 처리는 테이블 단위, 데이터 저장은 파티션 별로 수행

파티션의 장단점

  • 장점
    - 데이터 접근 시 액세스의 범위를 줄여 쿼리의 성능 향상
    - 데이터가 분산되어 저장되므로 디스크의 성능 향상
    - 파티션별로 백업 및 복구를 수행하므로 속도 향상
    - 시스템 장애 시 데이터 손상 정도를 최소화
    - 데이터 가용성 향상
    - 파티션 단위로 입출력 분산

  • 단점
    - 하나의 테이블을 세분화하여 관리하기 때문에 세심한 관리가 요구됨
    - 테이블 간 조인에 대한 비용 증가
    - 용량이 작은 테이블에 파티셔닝을 수행하면 성능이 저하됨

파티션의 종류

  • 범위 분할: 지정한 열의 값을 기준으로 분할
  • 해시 분할: 해시 함수를 적용한 결과 값에 따라 데이터를 분할
  • 조합 분할: 범위 분할로 분할한 다음 해시 함수를 적용하여 다시 분할

파티션 키 선정 시 고려사항

  • 파티션 키는 테이블 접근 유형에 따라 파티셔닝이 이루어지도록 선정
  • 데이터 관리의 용이성을 위해 이력성 데이터는 파티션 생성 주기와 소멸 주기를 일치시켜야 함
  • 매일 생성되는 날짜 칼럼, 백업의 기준이 되는 날짜 칼럼, 파티션 간 이동이 없는 칼럼, I/O 병목을 줄일 수 있는 데이터 분포가 양호한 칼럼 등을 파티션 키로 선정

데이터베이스 보안/암호화

데이터베이스 보안의 개요

  • 데이터베이스의 일부분 또는 전체에 권한이 없는 사용자가 액세스 하는 것을 금지하기 위해 사용되는 기술

암호화 / 복호화

  • 암호화는 데이터를 보낼 때 송신자가 지정한 수신자 외는 그 내용을 알 수 없도록 평문을 암호문으로 변환
  • 암호화 과정: 암호화되지 않은 평문을 정보 보호를 위해 암호문으로 바꿈
  • 복호화 과정: 암호문을 원래의 평문으로 바꿈

개인키 / 공개키 암호 방식

  • 암호화 방식의 키와 복호화 방식의 키가 같을 때
    - 개인키 / 비밀키 / 대칭키 암호 방식
    - 종류: 전위 기법, 대수 기법, 합성 기법(DES)
  • 암호화 방식의 키와 복호화 방식의 키가 다를 때
    - 공개키 / 비대칭키
    - RSA 기법

스토리지

스토리지의 개요

  • 단일 디스크로 처리할 수 없는 대용량의 데이터를 저장하기 위해 서버와 저장장치를 연결하는 기술

DAS(Direct Attached Storage)

  • 서버와 저장장치를 전용 케이블로 직접 연결하는 방식
  • 서버에서 저장장치를 관리
  • 저장장치를 직접 연결하므로 속도가 빠르고 설치 및 운영이 쉬움
  • 다른 서버에서 스토리지에 접근하여 사용 불가

NAS(Network Attached Storage)

  • 서버와 저장장치를 네트워크를 통해 연결하는 방식
  • 별도의 파일 관리 기능이 있는 NAS Storage가 내장된 저장장치를 직접 관리
  • DAS에 비해 확장성 및 유연성이 좋음
  • 서버들이 자유롭게 스토리지에 접근하여 파일 공유

SAN(Storage Area Network)

  • DAS의 빠른 처리와 NAS의 파일 공유 장점을 혼합한 방식
  • 서버와 저장장치를 연결하는 전용 네트워크를 별도로 구성
  • 파이버 채널(FC) 스위치를 이용하여 네트워크를 구성
    파이버 채널 : 장치 간 데이터 전송 속도를 기가바이트로 높이기 위한 네트워크 기술
  • 서버나 저장장치를 광케이블로 연결하므로 처리 속도가 빠름
  • 서버들이 저장장치 및 파일을 자유롭게 공유

논리 데이터 모델의 물리 데이터 모델 변환

테이블

  • 데이터를 저장하는 데이터베이스의 가장 기본적인 오브젝트

엔티티를 테이블로 변환

  • 논리 데이터 모델에서 정의된 엔티티를 물리 데이터 모델의 테이블로 변환
  • 테이블과 엔티티 명칭은 동일하게 하는 것을 권고
  • 테이블은 소스코드의 가독성을 위해 영문명을 사용
  • 표준화된 용어 사용 지향
  • 변환 규칙

슈퍼타입 / 서브타입을 테이블로 변환

  • 슈퍼타입과 서브타입은 논리 데이터 모델에서 이용되는 형태이므로 물리 데이터 모델을 설계할 때는 테이블로 변환

  • 슈퍼타입 기준 테이블 변환
    - 서브타입을 슈퍼타입에 통합하여 하나의 테이블로 만듦
    - 데이터의 액세스가 상대적으로 용이함
    - 뷰를 이용하여 각각의 서브타입만을 액세스하거나 수정할 수 있음
    - SQL 문장 구성이 단순함
    - 디스크의 저장 공간 증가
    - 인덱스의 효율이 떨어짐

  • 서브타입 기준 테이블 변환
    - 슈퍼타입의 속성들을 각각의 서브타입에 추가하여 서브타입들을 개별적인 테이블로 만듦
    - 각 서브타입 속성들의 선택 사양이 명확한 경우 유리함
    - 여러 개의 테이블로 통합하므로 테이블당 크기가 감소하여 전체 테이블 스캔 시 유리함
    - 복잡한 처리를 하는 SQL의 통합이 어려움

  • 개별타입 기준 테이블 변환
    - 슈퍼타입과 서브타입들을 각각의 개별적인 테이블로 변환
    - 슈퍼타입과 서브타입 테이블 사이에는 각각 1:1 관계가 형성
    - 저장공간이 상대적으로 작음

속성을 칼럼으로 변환

  • 논리 데이터 모델에서 정의한 속성을 물리 데이터 모델의 컬럼으로 변환
  • 일반 속성 변환
    - 엔티티의 속성을 테이블의 각각의 컬럼으로 변환
    - 칼럼명은 SQL 예약어 사용을 피하고 가능한 한 짧게 지정

관계를 외래키로 변환

  • 논리 데이터 모델에서 정의된 관계는 기본키와 이를 참조하는 기본키로 변환

자료구조

자료 구조의 정의

  • 프로그램에서 사용하기 위한 자료를 기억장치의 공간 내에 저장하는 방법과 자료 간의 관계, 처리 방법 등을 저장공간의 효율성 및 실행 간의 신속성을 높이기 위하여 연구 분석하는 것

자료 구조의 분류

  • 배열
    - 동일한 자료형의 데이터들이 같은 크기로 나열되어 순서를 갖고 있는 집합
    - 첨자를 이용하여 데이터에 접근
    - 첨자의 개수에 따라 n차원 배열이라 부름

  • 선형 리스트
  • 일정한 순서에 의해 나열된 자료 구조
    (1) 연속 리스트
    - 배열을 이용한 선형 리스트
    - 중간에 데이터를 삽입하기 위해 연속된 빈 공간이 있어야 하며 삽입, 삭제 시 자료의 이동이 필요
    (2) 연결 리스트
    • 자료 항목의 순서에 따라 노드의 포인터 부분을 이용하여 서로 연결시킨 자료 구조
    • 연결을 위한 포인터를 찾는 시간이 필요해 접근 속도가 느림
    • 노드의 삽입, 삭제 작업이 용이
    • 노드 부분 때문에 연속 리스트에 비해 기억 공간의 효율이 좋지 않음


  • 스택
    - 리스트의 한 쪽으로 자료의 삽입, 삭제가 이루어짐
    - LIFO(Last In First Out)의 구조를 가지고 있음
    - 오버플로우(overflow): 기억 공간이 모두 차있는 상태에서 데이터를 삽입하면 일어나는 현상
    - 언더플로우(underflow): 기억 공간이 비어있는 상태에서 데이터를 삭제하면 일어나는 현상
    - Top: 스택에 가장 마지막으로 삽입된 자료의 위치
    - Bottom: 스택의 가장 바닥



  • - 리스트의 한쪽에서는 삽입, 다른 한쪽에서는 삭제가 이루어짐
    - FIFO(First In First Out)의 구조를 가지고 있음
    - F(Front): 먼저 삽입된 자료의 기억 공간을 가리키는 포인터
    - R(Rear): 마지막에 삽입된 자료의 기억 공간을 가리키는 포인터


  • 트리
    - 노드와 가지를 이용하여 사이클 없이 구성한 그래프의 특수 형태
    - 디그리: 노드에서 뻗어나온 가지의 개수
    - 단말노드 / 잎 노드: 자식이 없는 노드
    - 트리의 디그리: 노드들의 디그리 중 가장 많은 수

정렬

버블 정렬

  • 인접한 두 요소를 비교하면서 오름차순 / 내림차순에 따라 값을 뒤로 보냄
  • 오름차순: 큰 값을 뒤로 보냄
  • 내림차순: 작은 값을 뒤로 보냄
  • 마지막까지 비교했다면 맨 뒤를 제외하고 다시 반복하는 방식으로 정렬될 때까지 반복


선택 정렬

  • 정렬할 결과를 담을 공간을 따로 마련해놓고 정렬 대상에서 처음부터 끝까지 조회해서 가장 큰(작은) 값을 정렬 결과 공간에 옮기는 방법
  • 위 방법은 메모리 공간을 따로 요구한다는 단점이 있어 아래와 같이 개선
  • 처음부터 끝까지 조회해서 가장 작은 값을 가장 앞으로 이동(교환)
  • 가장 앞은 이미 만족했으니 그 뒤부터 가장 끝까지 조회하는 방식으로 반복


삽입 정렬

  • 정렬이 된 영역과 정렬이 안 된 영역을 나눔
  • 순차적으로 정렬이 안 된 영역에서 정렬이 된 영역으로 넘겨주고 넘겨줄 때 이미 정렬이 되어 있는 영역과 비교하여 저장
  • 정렬이 안 된 영역에서 정렬이 된 영역으로 넘길 때, 정렬 위치에 데이터를 옮기면 데이터는 한 칸씩 뒤로 옮겨야 함
  • 옮길 위치를 찾고 해당 위치부터 뒤로 한 칸씩 옮기는 연산이 필요한데, 구분을 지어 구현하기보다 하나로 묶는 것이 편의성을 높일 수 있음
  • 정렬된 영역의 뒤부터 하나씩 비교하면서 아니라면 뒤로 한 칸 옮기고, 맞다면 그 위치에 삽입하는 방식으로 구현


힙 정렬

  • 힙의 특성을 이용해서 데이터를 힙에 넣고 그대로 꺼내서 정렬 시키는 방법
  • 힙에 데이터를 넣을 때 우선순위를 기반으로 데이터를 넣기 때문에 그대로 이용하면 됨

병합 정렬

  • Divide and Conquer(분할 정복) 알고리즘을 기반으로 하는 정렬
  • 데이터를 한 번에 정렬하지 않고 분할하여 정렬하고 다시 합치는 방법
  • 데이터를 정렬하기 쉬운 단계까지 분할하는 것이 효율적 (데이터가 1개가 될 때까지 분할)
  • 다시 합칠 때 정렬을 위한 연산을 수행


퀵 정렬

  • 1단계 (초기화)
    - 퀵 정렬을 위해서는 left / right / low / high / pivot이 필요
    - left, right: 데이터의 시작과 끝
    - pivot: 중심점, 기준
    - low, high: pivot을 제외한 다음 위치

  • 2단계 (low와 high의 이동)
    - low: 피벗보다 정렬의 우선순위가 낮은 데이터를 만날 때까지 이동
    - high: 피벗보다 정렬의 우선순위가 높은 데이터를 만날 때까지 이동
    - low와 high의 이동은 별개

  • 3단계 (low와 high의 교환)
    - 2단계의 low와 high 위치의 데이터를 교환
    - low와 high가 역전할 때까지 계속 이동

  • 4단계 (pivot의 이동)
    - 3단계를 실행함으로써 high 다음의 데이터들은 pivot보다 우선순위가 낮음을 확인
    - high가 내려오면서 우선순위가 높은 것들은 자리를 바꿈
    - high의 데이터와 pivot의 데이터를 교환
    - 그럼으로써 pivot의 데이터는 자리를 잡고 pivot의 데이터를 기준으로 좌우측은 섞일 필요가 없어짐
    - 이제 pivot의 데이터(high 위치)를 기준으로 좌우측으로 나누어서 위의 단계를 반복
    - left가 right보다 커질 때까지 반복 → 더이상 쪼갤 영역이 없음

profile
⏰ Good things take time

0개의 댓글