# scipy

13개의 포스트
post-thumbnail

상관관계를 찾아서

발표자료 및 소스코드: https://github.com/YunOh21/eda_project 2023년 9월 6일부터 12일까지 5일간의 개인 EDA 프로젝트를 회고할 겸, 상관계수와 p-value에 대해 정리해 보려고 합니다. EDA란? Exploratory Data Analysis 탐색적 데이터 분석 그래프 분석, 패턴 발견 cf. CDA(Confirmatory Data Analysis) 확증적 분석 가설 검정 이번 프로젝트에서는 생활폐기물 배출 양상에 가구 특성이 영향이 있는지 확인해 보고자 했고, 상관관계를 알아내는 방법으로 공분산과 상관계수, p-value를 사용했습니다. 분산 variance 분산: 데이터의 분포 상태 데이터가 넓게 분포하면 분산 값이 크다 데이터가 촘촘하게 분포하면 분산 값이 작다 평균을 구한 다음, 각 값이 그 평균으로부터 얼마나 떨어져있는지(즉

2023년 9월 16일
·
0개의 댓글
·
post-thumbnail

[Python] SciPy

SciPy Collection of packages that provide useful mathematical functions commonly used for scientific computing. 유용한 함수(수학적)를 제공하는 패키지 모음이다. List of subpackages cluster : Clustering algorithms (군집화 알고리즘) constants : Physical and mathematical constants (물리 및 수학 상수) fftpack : Fast Fourier Transform routines integrate : Integration and ordinary differential equation solvers (적분 및 일반 미분 풀이) interpolate : Interpolation and smoo

2023년 6월 5일
·
0개의 댓글
·
post-thumbnail

Scientific Python 2

Scipy Scipy is a collection of packages that provide useful mathematical functions commonly used for scientific computing. List of subpackages interpolate : Interpolation and smoothing splines → 보간법: 몇 개의 샘플 포인트들로 추정하여 인접한 점들 사이를 다항식 함수로 이어준 것에서 미싱포인트(추정)들을 계산/추정하는 방법이다. interp.interp1d vs. interp.interp2d: 입력 데이터 차원이 다르고 서로 다른 보간 방식을 지원함(interp2d는 바이리니얼(bi-linear) 보간 방법을 사용) interp1d의 kind 옵션: 보간법을 선택할때 사용 1) linear: 선형보정 → 데이터를 직선으로 연결 2) nearest: 가장 가까운 이

2023년 6월 5일
·
1개의 댓글
·
post-thumbnail

Scientific Python 1

- Pyhton Exceptions 이 코드를 돌리면 아래와 같이 에러를 출력해준다. - Python Object 파이썬에서는 아무거나 전부 객체로 받을 수 있고 함수로 넘겨준다. → 함수도 객체로 넘겨줄 수 있다. - List Comprehensions 1번과 2번 코드는 같은 코드다. 파이썬의 목록 이해를 통해 집합 표기법을 연상시키는 방식으로 목록을 만들 수 있다. - NumPy @는 Matrix mutiplication을 하기 위한 기호이다. - Function execution time %%timeit은 시간을 재주는 함수이다. 아래 사진과 같이 출력된다. %는 line command로 하나의 라인에 대해서 적용되고 %%는 cell command로 해당

2023년 5월 29일
·
0개의 댓글
·

[MLOps] Machine Learning 개요

scikit-learn numpy pandas scipy Deep Learning numpy pandas scipy Tensorflow PyTorch 가설 검정 가설 ⭐️ 귀무가설(Null Hypothesis) 통계에서의 가설 검정은 측정된 두 현상 간에 관련이 없다는 귀무가설(Null Hypothesis, 𝐻_0 로 표시) '관련이 없다'라는 형태의 가설 두 변수가 독립이다.두변수의 평균에 차이가없다.동전을 던졌을때 앞면이 나올 확률과 뒷면이 나올 확률에 차이가 없다. 특정 약이 질병 치료에 효과가 없다. 올해 제품의 생산량과 작년의 생산량이 같다. 법정으로 비유하면 증거 불충분. 무죄추정의 원칙 ⭐️ 대립가설(Alternati

2023년 3월 20일
·
0개의 댓글
·
post-thumbnail

[혼공머신] 5-2. 교차 검증과 그리드 서치

Intro. 결정트리 모델로 와인 구분하는 모델 완성! max_depth 바꿔가면서 성능 테스트 여러 번 해서 최적의 모델을 찾아야지 ㅎㅎ 그런데... 이사님🗣️ "최적의 모델을 찾는 건 좋은데, 그 과정에서 자꾸 테스트 세트로 평가를 하면 테스트 세트에만 잘 맞는 모델이 되어버리는 거 아닌가요?" ㅇ ㅠㅇ 1. 검증세트와 교차검증 해결책은 생각보다 간단했다. 테스트세트 말고, 따로 검증용 세트를 또 준비하면 된다! 검증세트 원래는 훈련/테스트만 나눴지만, 이젠 훈련/검증/테스트 3개로 나눔. (보통 20%) ☝🏻일반적인 활용 과정 1) 모델을 훈련세트로 훈련(fit)하고, 검증세트로 평가(score)한다 2) 매개변수 바꿔가며 scor

2023년 1월 28일
·
0개의 댓글
·

[Python] 통계 분석

통계 분석 단일 표본 t검정 : 그룹의 평균이 기준 값과 차이가 있는지를 확인 독립 표본 t검정 : 서로 다른 두 그룹의 데이터 평균 비교 쌍체 표본 t검정 : 특정 실험 및 조치 등의 효과가 유의한지 확인 일원분산분석 : 셋 이상의 그룹 간 차이가 존재하는지 확인 상관분석 : 두 연속형 변수 간에 어떠한 선형 관계를 가지는지 파악 카이제곱검정 : 두 범주형 변수가 독립인지 파악 단일 표본 t검정 > 그룹의 평균이 기준 값과 차이가 있는지를 확인 영 가설 : $H_0:\bar{x} = \mu (\bar{x}:$표본 평균, $\mu$:기준 값$)$ 대립 가설 : $H_1:\bar{x} > \mu \ \ \ or\ \ \ \bar{x} < \mu \ \ \ or\ \ \ \bar{x} \ne \mu$ 단일 표본 t검정의 선행 조건 단일 표본 t검정은 해당 변수가 정규 분포를 따라야 수행할 수 있으므로 **Kolmogorov

2022년 4월 14일
·
0개의 댓글
·

[Error]module 'scipy' has no attribute 'stats'

AttributeError: module 'scipy' has no attribute 'stats' #회귀선 기울기, 상수항 Why? scipy 패키지는 많은 서브패키지를 가지고 있어 자동으로 서브패키지를 임포트하지 못함 해결 ex)

2022년 4월 7일
·
0개의 댓글
·
post-thumbnail

[TIL] CLT와 신뢰구간

CLT (Central Limit Theorem) CLT, 즉 중심극한정리는 표본의 데이터가 많아질수록 표본의 평균은 정규분포에 근사한 형태로 나타나는 것이다. 이때 그래프는 종 모양을 띄게 되는데 이 종 모양에 관한 핵심 키워드는 바로 "평균" 이다 여기서 평균은 모집단으로부터 추출한 표본(sample)들을 평균한 것을 의미한다. 표본들을 무수히 많이 평균하게 된다면 표본 평균의 분포는 정규분포와 근사하게 된다. 모집단이 어떤 분포이던 상관없이 표본 평균의 분포는 정규 분포를 따르게 된다는 것이 바로 중심극한정리이다. 여러 모집단에서 따로 추출한 표본이어도 상관 없지만 독립적으로 추출한다는 가정이 필요하다. 신뢰구간 신뢰구간은 우리가 관찰한 것을 기반으로 합리적으로 추정된 값의 범위

2021년 9월 23일
·
0개의 댓글
·

SciPy cKDTree / 기존 NumPy 방법과 비교 Compare with NumPy Method

이전에 인접 감염 시뮬레이션을 작성하며 주어진 점들에 대해 쿼리 점과의 거리가 d 이하인 것들을 찾는 알고리즘을 다룬 적이 있습니다. 이 문제는 공간 지리에서 유용하게 사용될 수 있습니다. 가령, 우리가 사용하는 지도 앱에서 현위치로부터 가까운 음식점 리스트, 가장 가까운 약국을 찾을 때 이 문제를 해결해야 합니다. 또한 기계 학습 알고리즘의 하나인 k-NN 탐색에서도 이 문제를 빠르게 해결하여 모델의 성능을 높일 수 있습니다. k-d 트리는 이러한 연산에 최적화된 트리 자료 구조로, 공간을 분할하여 자료를 저장합니다. 이는 특정 점 (또는 그 주변의 점)을 탐색하는데 $O(\log n)$의 시간복잡도가 소요되어

2021년 2월 5일
·
0개의 댓글
·

상관계수

word embedding fine-tuning 성능 테스트 코드에 정답 라벨과 예측한 라벨의 상관계수를 계산하는 코드가 포함되어 있었는데, 정답 라벨을 1로만 설정하니까 상관계수를 계산하며 오류가 났다. 이 오류를 해결하려다가 일단 상관계수에 대해 찾아봤다. 상관계수 연속형 자료들끼리 분석하는 방법 중 하나. 회귀분석도 그 중 하나이다. 연속형 수치로 이루어진 변수와 변수 사이의 관계는 상관 관계와 인과 관계로 구분할 수 있는데, 상관 관계는 서로 선형적인 증가/감소와 관련된 상호 관계만을 나타내며 서로 영향을 주는 관계를 의미하지는 않는다. 한 변수가 다른 변수에 영향을 주는 경우에는 상관 관계가 아니라 인과 관계를 가진다고 한다. 이런 인과 관계 분석에는 회귀 분석을 사용하며, 상관 관계는 상관 관계 분석을 사용한다. 상관 관계의 크기는 상관계수라는 값으로 정량화해 나타낼 수 있다. 대표적인 상관계수로는 피어슨 상관계수와 스피어만 상관계수, 켄달 상관계수가 있고

2020년 12월 3일
·
0개의 댓글
·
post-thumbnail

로지스틱 관련 라이브러리

로지스틱 관련 라이브러리. 아래와 같이 불러온다. 편의상 expit을 logistic으로 치환하여 사용할 수 있다. 출력값: 0.7310585786300049 기록용. 더 자세한 내용은 scipy 깃헙을 참고해보자.

2020년 10월 23일
·
0개의 댓글
·

데이터 분석 초보자를 위한 T-test & Chi-squared test

1. 어떤 가설 검정 방법을 선택해야 할지 몰라 혼란스러운 당신에게 통계학을 한 번이라도 공부한 적이 있다면 T-test, Chi-squared test, Z-test 등에 대해서 들어봤을 것이다. 이것들은 모두 가설 검정 방법이다. 먼저 가설 검정이 무엇인지 간단히 정리해보자. 가설 검정이란 어떤 주장이 맞는지 틀리는지 확인하는 과정이다. 예를 들어, 지금 당신의 손에 주사위 하나가 있다고 치자. 우리는 주사위가 1부터 6까지 골고루 나온다고 알고 있다. 하지만 과연 당신의 손에 있는 주사위도 그럴까? 혹시 그 주사위는 무게 중심이 달라서 1이 제일 많이 나오고 6은 아예 안 나오지는 않을까? 당신은 주사위가 공평한 주사위인지 의심이 들었고, 한 번 확인해보기로 했다. 이럴 때 사용하는 게 바로 가설 검정이다. "이 주사위는 공평한 주사위이다."라는 가설을 세우고, 주사위를 n번 던진 뒤 관측값을 바탕으로 가설을 채택할지(주사위가 공평하다), 아니면 기각할지(주

2020년 9월 18일
·
4개의 댓글
·