혼공데분 with 7장

Seoyeon·2023년 9월 19일

혼자 공부하는 데이터 분석 with 파이썬

목록 보기

4/4

07 검증하고 예측하기

모수검정: 모집단에서 추출한 샘플을 사용해 모집단의 평균이나 분산과 같은 파라미터를 추정하여 가설을 테스트하는 방법(모집단에 대한 파라미터를 추정하는 방법)
표본: 모집단에서 선택한 일부 샘플
표준점수: z점수라고도 부르며 정규분포상에서 데이터 포인트가 원점에서부터 얼마나 떨어져 있는디 표준편차의 비율로 나타내는 점수(데이터 포인트에서 평균을 뺴고 표준편차로 나누어 구함)

z점수구하기
사이파이: z점수는 많은 수학과 과학 알고리즘을 제공
사이파이의 stats모듈을 임포트한 다음 zscore()함수를 호출하여 배열 x에 대한 모든 z점수 계산

누적분포 이해하기
표준정규분포: 평균이 0이고 표준편차가 1인 정규분포

누적분포 구하기
stats 모듈의 norm.cdf()메서드는 누적된 분포를 반환

norm.cdf()메서드 : z 점수 1까지 누적분포에서 z점수 -1까지 누적분포빼면됨

중심극한정리: 동일한 분포에서 무작위로 n개의 샘플을 추출하여 평균을 구할떄 n이 어느정도 크다면 이 평균이 정규분포에 가까워진다는 개념

샘플링하기
sample()메서드: 무작위 샘플링을 위해 판다스 데이터프레임
mean()메서드를 연이어 호출하여 샘플링의 결과의 평균을 계산

샘플링 크기와 정확도
무작위로 뽑은 표본의 통계랑이 실제 모집단의 통계량과 얼마나 일치할지 확인

모집단의 평균 범위를 추정하기:신뢰구간
신뢰구간: 알려지지않은 모집단의 파라미터를 추정한 범위

통계적 의미 확인하기: 가설검정
가설검정:표본의 통계치를 기반으로 모집단에 대한 가설을 받아들일지 기각할지 결정하는 방법
영가설,귀무가설: 표본 사이에 통계적으로 의미가 없다고 예상되는 가설
대립가설: 표본 사이에 통계적인 차이가 있다는 가설
유의수준: z점수에 대한 기준

t-검정으로 가설 검증하기

ttest_ind()함수: 사이파이에 두 표본의 평균을 비교하는 함수
t-검정: : t-분포인 두 표본을 비교
t-분포:정규분포와 비슷하지만 중앙은 조금더 낮고 꼬리가 더 두꺼운 분포

정규분포가 아닐때 가설 검증하기

순열검정: 정규분포에 대한 가정을 하지 않고 수행할수 있는 검정방법
비모수검정: 모집단의 파라미터를 추정하지 않기때문

permutation()함수: 두 배열을 넘파이 append()함수로 합친후 무작위로 추출하기 위해 사용

07-2 머신러닝으로 예측하기

머신러닝->인공지능의 하위 분야->지도학습/비지도학습

모델:좁은 의미로 머신러닝으로 훈련된 프로그램 객체를 의미
지도학습: 머신러닝의 한 종류로 정답(또는 타깃)을 알고있는 문제에 적용하는 방법.
입력과 타깃으로 모델을 훈련한 다음,타깃이 없는 새로운 데이터에 적용하여 정답을 예측함
비지도 학습: 타깃이 없는 데이터에 적용하는 방법

사이킷런: 파이썬의 대표적인 머신러닝 패키지

모델 훈련하기

훈련세트: 모델을 훈련하기 위해 사용하는 데이터
테스트 세트: 훈련된 모델을 평가하기 위해 사용

훈련세트와 테스트 세트 나누기

train_test_split()함수: 기본적으로 입력된 데이터를 무작위로 섞은 후 75%를 훈련세트로 25%를 테스트 세트로 나눔
결정계수: 회귀모델을 평가하는 대표적인 방법
특성: 2차원 배열인 입력은 행방향으로 샘플이 나열되고 열 방향으로 샘플의 속상이 나열되는 특징

선형회귀모델 훈련하기

linear_model 모듈아래의 LinearRegression클래스를 임포트 해서 선형 회귀모델을 훈련
객체 Ir을 만들고 이 객체의 fit()메서드를 호출하여 모델을 훈련

훈련된 모델을 평가하기: 결정계수

score()메서드 : 훈련된 머신러닝 모델이 얼마나 유용한지를 평가

연속적인 값 예측하기: 선형 회귀

선형회귀: 선형함수를 사용해 모델을 만드는 알고리즘. 가장 간단하고 다재다능한 지도학습알고리즘중하나
y=aX+b
입력에 기울기 a를 곱하고 y축과 만나는 절편을 더하여 예측을 만드는것

카테고리 예측하기: 로지스틱 회귀

이진분류: 두개의 카테고리로 구분하는 경우
다중분류: 세개 이상의 카테고리로 구분하는 경우
클래스: 분류알고리즘에서는 타깃 카테고리
0: 음성클래스 1:양성 클래스

로지스틱 회귀모델 훈련하기

로지스틱 회귀: 가장 기본적인 분류 알고리즘으로 선형함수를 사용하여 패턴을 학습하짐나, 출력결과에 로지스틱 함수를 적용하여 0~1사이의 값으로 압축
로지스틱함수: 연속적인 실수 출력값을 1또는 0으로 변환
LogisticRegression 클래스를 임포트하여 훈련세트로 fit()메서드를 호출

더미: 가장많은 클래스로 무조건 예측을 수행
Dummyclassifier모델: 기본적으로 가장 많은 클래스를 예측으로 출력

Seoyeon

이전 포스트