데이터 개념

YunGyu Choi·2023년 1월 21일
0

Data Science

목록 보기
1/10
post-thumbnail

Concept of Data

  • data is facts or materials obtained by observation, experiment or investigation.
  • data is in the form of letters, numbers, sounds, pictures, etc. that a person or machine can process

DIKW Pytamid

  • data do not mean information.
  • information can be obtained by processing data.

Data collection method

  1. Questionnaire method
    - it's easy to process statistics and analyze data.
    - but it's difficult to practice on illiterate people.

  2. Experiment method
    - scientific research is possible.
    - but ethical problems can arise.

  3. Interview method
    - quality data collection is possible.
    - but cost a lot of money and specimens are difficult to obtain.

  4. Participatory observation method
    - Realistic data collection is possible.
    - but unexpected variables may occur.

  5. Literature review method
    - it's free from space-time constraints
    - but the reliability of the study depends on the reliability of the literature.

LOTS

L - Life data
O - Observation data
T - Test data
S - Self report data

데이터 유형과 형식

  1. 관측 및 관찰 데이터
    - 현장에서 캡쳐
    - 다시 캡쳐하거나 재생산 및 교체 불가
    - 예시) 센서, 인간관찰, 설문 조사 등

  2. 실험 데이터
    - 현장 또는 실험실 기반의 통제된 조건 속에서 수집된 데이터
    - 재현이 가능하지만 높은 비용 요구
    - 예시) 유전자 서열, 크로마토그램, 분광 데이터, 현미경 데이터 등

  3. 파생 또는 컴파일 데이터
    - 재현가능하지만 높은 비용 요구
    - 예시) 텍스트 및 데이터마이닝, 파생 변수, 컴파이된 데이터베이스, 3D모델링 등

  4. 시뮬레이션
    - 모델을 사용하여 실제 또는 이론적 시스템 동작 및 성능을 연구한 결과
    - 모델 및 메타데이터는 입력 데이터가 출력 데이터보다 더 중요
    - 예시) 기후모델, 경제모델, 생지화학모델 등

  5. 참조 또는 표준
    - 정적 또는 유기적 컬렉션 데이터 세트
    - 예시) 유전자 서열, 데이터뱅크, 화학구조, 공간데이터 포털 등

데이터 집합 특성

  1. Dimensionality
    - 데이터 집합의 차원은 각 데이터 개체가 가지는 속성의 개수를 의미
    - 데이터에 따라서는 속성의 수가 너무 많아 분석의 어려움이 발생할 수 있는데 이를 '차원의 저주(Curse of Dimensionalrity)라고 표현

  2. Sparsity
    - 어떤 데이터 집합은 대부분의 데이터 개체에서 속성들이 0의 값을 가지며 1% 미만의 데이터 개체에서만 0이 아닌 값으 가지는 경우 존재
    - 일반적으로 이러한 데이터의 경우 저장에 있어 0이 아닌 값만을 사용하면 데이터 분석 용이
    - 예를 들어 4x4 행렬에서 (2,3)원소의 값만이 0이 아닌 값이라면 이 행렬의 저장은 16개의 모든 원소를 저장하는 것이 아니라 (2,3,값)이라는 정보만으로도 행렬 표현 가능

  3. Resolution
    • Resolution에 따라서 획득되는 데이터의 특성이 달라지는 경우 존재
    • Resolution이 너무 높은 경우 잡음과 같은 간섭 요인에 영향을 많이 받을 수 있으며, 반대로 너무 낮은 경우 정보가 사라질 가능성 존재
    • 예를 들어 해수 온도 측정에 있어 1년마다 측정한다면 계절별 온도 변화 패턴을 찾기 어려울 것
    • 그러므로 적절한 수준의 Resolution을 사용 하는 것이 필요하며, 이는 실험 계획법과 연관




참조

profile
velog에는 이론을 주로 정리하고, 코드와 관련된 것은 Git-hub로 관리하고 있어요. 포트폴리오는 링크된 Yun Lab 홈페이지를 참고해주시면 감사하겠습니다!

0개의 댓글