[기초 CS 개념] 데이터 품질이란?

감자둘둘·2023년 7월 10일
0

기초 CS 개념

목록 보기
5/5

데이터 품질이란?

데이터 품질은 데이터의 정확성, 완전성, 유효성, 중복성 등과 같은 측면을 평가하는 개념이다.
데이터 품질이 좋다는 것은 데이터가 정확하고 신뢰할 수 있다는 의미이다.

데이터 품질의 중요성은 데이터를 기반으로 하는 의사결정 및 분석 결과의 신뢰성과 효과성에 직결된다.
🚨데이터 품질이 좋지 않으면 잘못된 의사 결정을 내릴 수 있으며, 비효율적인 데이터 분석 및 가치 추출을 야기할 수 있다.

정확성

  • 데이터가 실제 값과 일치하는 정도를 나타낸다.
  • 정확성이 높을수록 데이터의 신뢰성이 증가한다.

완전성

  • 데이터가 모든 필수 필드를 포함하고 누락이 없는지를 나타낸다.
  • 데이터의 일관성이 높을수록 데이터의 활용 가능성이 향상된다.

일관성

  • 데이터가 동일한 형식과 구조를 따르는지 나타낸다.
  • 데이터의 일관성이 높을수록 데이터 통합 및 분석 작업이 원활해진다.

유효성

  • 데이터가 정해진 규칙과 제약 조건을 따르는지를 나타낸다.
  • 데이터의 유효성이 높을수록 잘못된 데이터를 방지하고 데이터의 신뢰성을 유지할 수 있다.

중복성

  • 데이터에 중복된 레코드나 값이 없는지를 나타낸다.
  • 중복성이 낮을수록 데이터의 정리와 분석이 용이해지며, 데이터 저장 및 처리 비용을 절감할 수 있다.

데이터 품질을 유지하고 개선하기 위해서는 데이터 품질 관리 프로세스를 수립하고, 데이터 품질 검사, 데이터 정제, 오류 처리 등의 작업을 수행해야 한다.

데이터 품질 검사란?

데이터 품질 검사는 데이터의 정확성, 완전성, 일관성, 츄효성, 중복성 등을 평가하기 위해 다영한 절차와 도구를 사용할 수 있다.
솔직히 데이터 품질의 정의만 읽으면 감이 안 집히기 때문에 데이터 품질 검사의 예시를 들어보자.

무결성 검사

  • 데이터의 무결성을 확인하기 위해 기본 키(Primary Key) 또는 고유한 식별자(UID)를 기반으로 중복된 레코드가 있는지를 확인한다.
  • 중복된 레코드를 찾고 처리하거나 제거하여 데이터의 일관성을 유지한다.

유효성 검사

  • 데이터 필드에 적절한 값이 있는지를 확인한다.
  • 예를 들어, 숫자 필드에 숫자 값이 들어있는지, 날짜 필드에 올바른 날짜 형식이 있는지를 확인한다.

완전성 검사

  • 필수 필드의 누락 여부를 확인한다.
  • 데이터에 필수적인 필드가 누락되어 있는 경우, 해당 레코드를 식별하고 처리한다.

형식 검사

  • 데이터가 정의한 형식에 맞게 저장되어 있는지를 확인한다.
  • 예를 들어, 전화번호가 올바른 형식으로 저장되어 있느지, 이메일 주소가 유효한 형식인지 등을 검사한다.

데이터 일관성 검사

  • 데이터가 동일한 형식과 구조를 따르는지를 확인한다.
  • 데이터 테이블 또는 파일 간에 필드 이름, 데이터 유형, 길이 등이 일치하는지를 검사하여 데이터 일관성을 유지한다.

정확성 검사

  • 데이터가 실제 값과 일치하는지를 확인한다.
  • 예를 들어, 외부 데이터를 기반으로한 데이터 품질 검사, 데이터 비교 및 검증 등을 수행하여 데이터의 정확성을 확인할 수 있다.

통계적 검사

  • 데이터의 분포, 평균, 표준편차 등과 같은 통계적 속성을 분석하여 데이터의 품질을 평가합니다.
  • 이를 통해 이상치나 이상한 패턴을 감지하고 처리할 수 있다.
profile
한 줄 소개.

0개의 댓글