모집단(population)의 사전적 정의
: 조사하고자 하는 대상집단 전체
자 그렇다면 모집단을 데이터 관점에서 정의해보자.
어떤 웹서비스에서 모집단을 전체 회원의 수라고 정의 내렸을 때
회원가입 아이디 갯수를 모집단으로 잡을 것인지?
또 시점에서 생각해보면, 중간에 새로 가입한 고객은? 중간에 탈퇴한 고객은?
엄밀하게 정의를 하려고 하다보면 결국 '제외','예외처리'를 하게 된다.
하지만 그럼 '전체'가 아니잖아? 다시 정의 해보자라고 생각하며
생각이 펜로즈의 무한계단으로 빠진다.
그래서 데이터 분석 관점에서 모집단이라는건, '모집단'='전체 회원의 수'라고 편하게 넘어갈 부분은 아니라는 것이다. 사전적인 정의 자체는 세상 간단하지만 의외로 추상적이고 복잡한 면이 있다.
따라서 모집단의 데이터분석은 다음과 같은 절차를 거친다.
- 모집단을 '어느정도' 정의
ex) 전체 사용자를 모집단이라고 대략적인 정의- 이에 가까운 표본 정의
- 모집단 특성치를 추정하기에 적절한 표본을 잘 정의하기 위해서는
큰 수의 법칙
에 의해 양이 많은 것이 유리.
ex) 최근 3개월의 구매 사용자에 대한 구매 데이터 채택- 이 표본을 구하는 방법 고민
- 이 표본에 대한 데이터 수집
모수(Parameter)