데이터 구조와 종류

YunGyu Choi·2023년 1월 21일
0

Data Science

목록 보기
2/10

데이터 세트

  • 데이터 개체들의 집합
    ❓데이터 개체 : 레코드(record), 점(point), 벡터(vector), 패턴(pattern), 사례(case), 사건(event), 샘플(sample), 관찰(observation), 개체(entity)등을 포함
  • 데이터 개체는 여러 속성(attribute)로 기술
    ❓속성 : 데이터 개체들 사이의 차이를 규정할 수 있는 특성이나 특징으로 변수(variable), 특성(characteristic), 필드(field), 특징(feature), 차원(dimension)등을 의미
  • 행 : 주어진 멤버와 일치
  • 열 : 특정한 변수를 대표


데이터 형태

질적자료(Qualitative or Categorical)

  • 범주 또는 순서 형태의 속성을 가지는 자료
  • 범주형(명목형, nominal)자료 : 사람의 피부색, 성별 등
  • 순서형(서수형, ordinal)자료 : 제품의 품질, 등급, 순위 등

양적자료(Quantitative or Numeric)
관측된 값이 수치 형태의 속성을 가지는 자료

  • 범위형(interval)자료 : 온도 같이 수치 간의 차이가 의미를 가지는 자료
  • 비율(ratio)자료 : 무게와 같이 수치의 차이 뿐만 아니라 비율 또한 의미를 가지는 자료

정형데이터 vs 비정형 데이터

정형데이터의 종류

레코드 데이터(Record Data)

  • 데이터 마이닝에서 가장 많이 사용되는 데이터 형태, 대게 flat파일 형태로 저장된 데이터 세트
  • 레코드의 모음으로 구성(각 레코드는 고정된 수의 속성으로 구성)

트랜잭션 데이터(Transaction Data)

  • 구매자와 구매 물품목록 형태로 이루어진 데이터 세트
  • 장바구니 데이터(Market Basket Data)라고도 불림

데이터 행렬(Data Matrix)

  • 모든 속성이 수치 형태의 값을 가지는 행렬 형태의 데이터 세트
  • 패턴 행렬(Pattern matrix)이라고도 불림

희박한 데이터 행렬(Sparse Data Matrix)

  • 데이터 행렬의 특별한 경우

그래프 데이터(Graph-based DAta)

  • 데이터 개체 간의 관계나 데이터 자체르 그래프로 표현하는 경우에 사용
  • 개체를 나타내는 Vertices와 그것들의 관계를 나타내는 Edge로 구성

순서 데이터(Ordered Data)

  • 데이터 개체의 속성이 시간 또는 공간적인 순서와 연관되는 데이터 세트
  • 종류
    - 연속 데이터(Sequential data) : 트랜잭션 데이터에 시간 성분을 추가
    - 서열 데이터(Sequence data) : 데이터 개체들 사이 순서가 존재
    - 시계열 데이터(Time series data) : 시간에 따른 속성의 변화
    - 공간 데이터(Spatial data) : 데이터 개체가 공간상 위치와 연관된 데이터



비정형데이터의 종류

  • 텍스트데이터
  • 로그데이터
  • 센서 데이터
  • 오디오 데이터
  • 이미지 데이터
  • 비디오 데이터
  • 기타




참조

profile
velog에는 이론을 주로 정리하고, 코드와 관련된 것은 Git-hub로 관리하고 있어요. 포트폴리오는 링크된 Yun Lab 홈페이지를 참고해주시면 감사하겠습니다!

0개의 댓글