data is facts or materials obtained by observation, experiment or investigation.
data is in the form of letters, numbers, sounds, pictures, etc. that a person or machine can process
DIKW Pytamid
data do not mean information.
information can be obtained by processing data.
Data collection method
Questionnaire method
- it's easy to process statistics and analyze data.
- but it's difficult to practice on illiterate people.
Experiment method
- scientific research is possible.
- but ethical problems can arise.
Interview method
- quality data collection is possible.
- but cost a lot of money and specimens are difficult to obtain.
Participatory observation method
- Realistic data collection is possible.
- but unexpected variables may occur.
Literature review method
- it's free from space-time constraints
- but the reliability of the study depends on the reliability of the literature.
LOTS
L - Life data
O - Observation data
T - Test data
S - Self report data
데이터 유형과 형식
관측 및 관찰 데이터
- 현장에서 캡쳐
- 다시 캡쳐하거나 재생산 및 교체 불가
- 예시) 센서, 인간관찰, 설문 조사 등
실험 데이터
- 현장 또는 실험실 기반의 통제된 조건 속에서 수집된 데이터
- 재현이 가능하지만 높은 비용 요구
- 예시) 유전자 서열, 크로마토그램, 분광 데이터, 현미경 데이터 등
파생 또는 컴파일 데이터
- 재현가능하지만 높은 비용 요구
- 예시) 텍스트 및 데이터마이닝, 파생 변수, 컴파이된 데이터베이스, 3D모델링 등
시뮬레이션
- 모델을 사용하여 실제 또는 이론적 시스템 동작 및 성능을 연구한 결과
- 모델 및 메타데이터는 입력 데이터가 출력 데이터보다 더 중요
- 예시) 기후모델, 경제모델, 생지화학모델 등
참조 또는 표준
- 정적 또는 유기적 컬렉션 데이터 세트
- 예시) 유전자 서열, 데이터뱅크, 화학구조, 공간데이터 포털 등
데이터 집합 특성
Dimensionality
- 데이터 집합의 차원은 각 데이터 개체가 가지는 속성의 개수를 의미
- 데이터에 따라서는 속성의 수가 너무 많아 분석의 어려움이 발생할 수 있는데 이를 '차원의 저주(Curse of Dimensionalrity)라고 표현
Sparsity
- 어떤 데이터 집합은 대부분의 데이터 개체에서 속성들이 0의 값을 가지며 1% 미만의 데이터 개체에서만 0이 아닌 값으 가지는 경우 존재
- 일반적으로 이러한 데이터의 경우 저장에 있어 0이 아닌 값만을 사용하면 데이터 분석 용이
- 예를 들어 4x4 행렬에서 (2,3)원소의 값만이 0이 아닌 값이라면 이 행렬의 저장은 16개의 모든 원소를 저장하는 것이 아니라 (2,3,값)이라는 정보만으로도 행렬 표현 가능
Resolution
Resolution에 따라서 획득되는 데이터의 특성이 달라지는 경우 존재
Resolution이 너무 높은 경우 잡음과 같은 간섭 요인에 영향을 많이 받을 수 있으며, 반대로 너무 낮은 경우 정보가 사라질 가능성 존재
예를 들어 해수 온도 측정에 있어 1년마다 측정한다면 계절별 온도 변화 패턴을 찾기 어려울 것
그러므로 적절한 수준의 Resolution을 사용 하는 것이 필요하며, 이는 실험 계획법과 연관