데이터 세트
- 데이터 개체들의 집합
❓데이터 개체 : 레코드(record), 점(point), 벡터(vector), 패턴(pattern), 사례(case), 사건(event), 샘플(sample), 관찰(observation), 개체(entity)등을 포함
- 데이터 개체는 여러 속성(attribute)로 기술
❓속성 : 데이터 개체들 사이의 차이를 규정할 수 있는 특성이나 특징으로 변수(variable), 특성(characteristic), 필드(field), 특징(feature), 차원(dimension)등을 의미
- 행 : 주어진 멤버와 일치
- 열 : 특정한 변수를 대표
데이터 형태
질적자료(Qualitative or Categorical)
- 범주 또는 순서 형태의 속성을 가지는 자료
- 범주형(명목형, nominal)자료 : 사람의 피부색, 성별 등
- 순서형(서수형, ordinal)자료 : 제품의 품질, 등급, 순위 등
양적자료(Quantitative or Numeric)
관측된 값이 수치 형태의 속성을 가지는 자료
- 범위형(interval)자료 : 온도 같이 수치 간의 차이가 의미를 가지는 자료
- 비율(ratio)자료 : 무게와 같이 수치의 차이 뿐만 아니라 비율 또한 의미를 가지는 자료
정형데이터 vs 비정형 데이터
정형데이터의 종류
레코드 데이터(Record Data)
- 데이터 마이닝에서 가장 많이 사용되는 데이터 형태, 대게 flat파일 형태로 저장된 데이터 세트
- 레코드의 모음으로 구성(각 레코드는 고정된 수의 속성으로 구성)
트랜잭션 데이터(Transaction Data)
- 구매자와 구매 물품목록 형태로 이루어진 데이터 세트
- 장바구니 데이터(Market Basket Data)라고도 불림
데이터 행렬(Data Matrix)
- 모든 속성이 수치 형태의 값을 가지는 행렬 형태의 데이터 세트
- 패턴 행렬(Pattern matrix)이라고도 불림
희박한 데이터 행렬(Sparse Data Matrix)
- 데이터 행렬의 특별한 경우
그래프 데이터(Graph-based DAta)
- 데이터 개체 간의 관계나 데이터 자체르 그래프로 표현하는 경우에 사용
- 개체를 나타내는 Vertices와 그것들의 관계를 나타내는 Edge로 구성
순서 데이터(Ordered Data)
- 데이터 개체의 속성이 시간 또는 공간적인 순서와 연관되는 데이터 세트
- 종류
- 연속 데이터(Sequential data) : 트랜잭션 데이터에 시간 성분을 추가
- 서열 데이터(Sequence data) : 데이터 개체들 사이 순서가 존재
- 시계열 데이터(Time series data) : 시간에 따른 속성의 변화
- 공간 데이터(Spatial data) : 데이터 개체가 공간상 위치와 연관된 데이터
비정형데이터의 종류
- 텍스트데이터
- 로그데이터
- 센서 데이터
- 오디오 데이터
- 이미지 데이터
- 비디오 데이터
- 기타
참조