🖍️ ETL
🖍️ 오차 역전파를 이용한다.
🖍️ t-근접성은 특정 정보의....
t-근접성: 민감 정보의 분포를 낮추어 추론 가능성을 낮춤.
🖍️ 특이화
🖍️ 요인 분석
🖍️ 개인정보 차등 보호
🖍️ 평균
🖍️ 6/17
1. 주어진 정보 정리
- A 공장
- 생산 비율: 50% (P(A) = 0.5)
- 불량률: 1% (P(D|A) = 0.01)
- B 공장
- 생산 비율: 30% (P(B) = 0.3)
- 불량률: 2% (P(D|B) = 0.02)
- C 공장
- 생산 비율: 20% (P(C) = 0.2)
- 불량률: 3% (P(D|C) = 0.03)
- 목표: 불량품이 발생했을 때, C 공장에서 생산되었을 확률 P(D|C) 계산
2. 전체 불량품이 발생할 확률 𝑃(𝐷) 계산
전체 불량품이 발생할 확률은 각 공장에서 불량품이 나올 확률의 합이다.
3. 베이즈 정리를 이용하여 𝑃(𝐶∣𝐷) 계산
베이즈 정리에 따르면:
4. 결론
불량품이 발생했을 때, 해당 부품이 C 공장에서 생산되었을 확률은 약 35.29% 이다.
🖍️ 87.368 < 𝜇 < 92.632
모평균 𝜇의 90% 신뢰구간은 (87.378, 92.632).
🖍️ 5/12
총 표본 개수 n = 5
🖍️ 표본상관계수
🖍️ 평형 좌표계
(Z₀.₀₂₅=2.060 (df=25), Z₀.₀₂₅=2.064 (df=24))
🖍️ 167.936 < 키 < 172.064
신뢰구간 = 표본평균 +/- (신뢰수준 x 표준오차(SE))
F 분포
- F분포의 확률변수는 두 개의 독립인 카이제곱분포 확률변수의 비로 정의.
- 카이제곱분포가 한 집단의 분산을 다룬다면, F분포는 두 집단의 분산을 다룸.
- https://math100.tistory.com/47?category=836925
🖍️ 데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 어려워진다.
주성분 분석은 변수들 간의 상관관계를 제거하여 새로운 독립적인 축(주성분)을 생성하는 기법이므로, 오히려 상관관계를 제거하는 것이 PCA의 목적이며, 분석을 쉽게 만들어줍니다.
🖍️ 포아송 분포는 독립적인 두 카이제곱 분포가 있을 때, 두 확률 변수의 비이다.
포아송 분포는 단위 시간 또는 단위 공간에서 특정 사건이 발생하는 횟수를 모델링하는 이산 확률 분포로 확률 질량 함수(PMF)를 사용한다.
🖍️ 표본의 크기와 상관없이 T-분포는 정규분포를 따른다.
👉 표본 크기가 무한대로 커질 때만 정규분포와 동일해진다.
🖍️ 가중치
🖍️ 3×3
CNN(Convolutional Neural Network)에서 원본 이미지 크기가 5×5, 필터 크기가 3×3, Stride(이동 간격)가 1일 때, 생성되는 Feature Map의 크기를 구해보자.
🖍️ 선형성
🖍️ 라쏘(Lasso)
Lasso (Least Absolute Shrinkage and Selection Operator) 회귀의 비용 함수:
✅ Lasso 회귀는 L1 정규화를 통해 불필요한 변수를 제거하며, 중요한 변수만 선택하는 변수 선택(Feature Selection) 기법을 수행하는 방법이다.
🖍️ TPR: 3/4, FPR: 1/48
- TPR = 45 / (45 + 15) = 3/4
- FPR = 5 / (5 + 235) = 1/48
🖍️ 부스팅 - GBM
🖍️ 분류
🖍️ 1개는 훈련데이터, k-1개는 검증데이터로 사용된다.
K-Fold 교차검증에서는 데이터를 K개로 나누고, 그중 1개를 검증 데이터로, 나머지 (K-1)개를 훈련 데이터로 사용한다.
🖍️ 스타 차트
🖍️ Specificity: 5/6, Precision: 5/8
- Specificity: 75 / (75 + 15) = 5/6
- Precision: 25 / (25 + 15) = 5/8
🖍️ Precision, Recall
🖍️ 로지스틱 회귀 분석
🖍️ 적합도 검정에서 자유도는 범주의 수 + 1이다.
적합도 검정에서 자유도(degrees of freedom, df)는 "범주의 수 - 1"이다.
🖍️ a,b 둘 다 0이면 y확률은 0이다.
a와 b가 모두 0이면 log(odds) = 0이므로, odds = 1이 되고, 이에 따른 y의 확률은 0.5가 된다.
🖍️ 예측값 False, 실제값 True
https://sy-log.tistory.com/entry/빅데이터분석기사-필기-요약-빅분기-4과목-요약-IV-빅데이터-결과-해석-요약-1
어느 중하교에서 1학년 학생들의 키의 차이가 2학년이 되면 더 커질 것이라고 예상된다. 1학년에서 6명을 뽑고, 2학년에서 8명을 뽑아서 각각의 성적의 분산을 조사해 봤더니, 1학년의 분산은 10.0이었고 2학년의 분산은 50.0이었다. 두모집단의 분산은 같다고 볼 수 있을까?
🖍️ F 통계량, p-value < 유의수준, 귀무가설 기각
두 모집단의 분산이 동일한지 검정하려면 F-검정(F-test for equality of variances) 을 사용
품목 | 건수 |
---|---|
사과 | 5 |
배, 바나나 | 10 |
바나나 | 5 |
사과, 배, 바나나, 포도 | 2 |
배, 포도 | 1 |
사과, 배, 포도 | 3 |
사과, 포도 | 4 |
🖍️ 향상도(Lift) = 1.167
(1보다 크므로, 사과를 구매하면 배와 포도를 함께 구매할 가능성이 조금 더 높음을 의미함)
- If: 1보다 작으면, 사과를 구매하는 것이 배와 포도를 구매하는 것과 큰 연관성이 없음을 의미함.