'통계 101x데이터분석' 책을 읽고 중요한 내용을 정리했습니다.
1.1 데이터를 분석하다
- 데이터 분석의 목적
-
데이터를 요약하는 것
: 데이터를 요약하고 정리할 방법이 필요하다.
-
대상을 설명하는 것
: 대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해한다.
: 인과관계란 2가지 중 하나(원인)를 변화시키면, 다른 하나(결과)도 바꿀 수 있는 관계
: 상관관계란 한쪽이 크면 다른 한쪽도 큰 관계를 말합니다.
-
새로 얻을 데이터를 예측하는 것
: 이미 얻은 데이터를 기반으로, 이후 새롭게 얻을 데이터를 예측하는 것
1.2 통계학의 역할
- 통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다.
- 데이터분석에서 통계학의 역할
: 퍼짐(산포, dispersion)이 있는 데이터에 대해 설명이나 예측을 하는 것
: 통계학은 데이터 퍼짐을 '불확실성'이라 평가하고, 통계학의 목적인 '대상의 설명과 예측'을 수행한다.
- 확률을 사용하자.
: 통계학은 불확실성에 대처하기 위해 데이터 퍼짐이나 불확실성을 확률로 나타내는 확률론을 제공한다.
2.3 통계학의 전체 모습
- 기술통계와 추론통계
- 기술통계
: 수집한 데이터를 정리하고 요약하는 방법. 이를 통대 데이터 그 자체의 특성이나 경향을 알 수 있다.
- 추론통계
: 수집한 데이터로부터 데이터의 발생원을 추정하는 방법
: 확률모형; 데이터가 비교적 단순한 확률장치에서 생성되었다고 가정
- 통계적 추론과 가설검정
- 통계적 추론: 데이터에서 가정한 확률 모형의 성질을 추정하는 방법
- 가설검정: 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법
- 다양한 분석방법
: 데이터 유형이나 변수(특정 속성의 데이터)의 개수, 가정하는 확률모형 등에 따라 이용하는 방법이 다르기 때문이다.