빅분기 필기 : 2021년 2회차 기출

m_ngyeong·2025년 3월 31일
0

빅데이터분석기사

목록 보기
5/7
post-thumbnail

빅데이터분석기사 필기


📝 2021년 2회차 기출

1. 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은?

🖍️ ETL

2. 딥러닝에 대한 설명으로 옳은 것은?

🖍️ 오차 역전파를 이용한다.

5. 비식별화 조치에 대한 설명을 옳지 않은 것은?

🖍️ t-근접성은 특정 정보의....
t-근접성: 민감 정보의 분포를 낮추어 추론 가능성을 낮춤.

6. 익명 기법 아닌것?

🖍️ 특이화

12. 빅데이터 분석 절차에서 문제의 단수화를 통해 변수 간의 관계를 정의하는 것은?

🖍️ 요인 분석

20. 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, 데이터 품질, 관리 규정 준수를 강조하는 모델은?

🖍️ 개인정보 차등 보호


21. 박스 플롯으로 알 수 없는 통계량은?

🖍️ 평균

25. 베이즈 정리(Bayes' Theorem)

한 회사에서 A공장은 부품을 50% 생산하고 불량률은 1%, B공장은 부품을 30% 생산하고 불량률은 2%, C공장은 부품을 20% 생산하고 불량률은 3% 이다. 불량품이 발생했을 때 C 공장에서 생산한 부품일 확률은?

🖍️ 6/17

1. 주어진 정보 정리

  • A 공장
    • 생산 비율: 50% (P(A) = 0.5)
    • 불량률: 1% (P(D|A) = 0.01)
  • B 공장
    • 생산 비율: 30% (P(B) = 0.3)
    • 불량률: 2% (P(D|B) = 0.02)
  • C 공장
    • 생산 비율: 20% (P(C) = 0.2)
    • 불량률: 3% (P(D|C) = 0.03)
  • 목표: 불량품이 발생했을 때, C 공장에서 생산되었을 확률 P(D|C) 계산

2. 전체 불량품이 발생할 확률 𝑃(𝐷) 계산

전체 불량품이 발생할 확률은 각 공장에서 불량품이 나올 확률의 합이다.

3. 베이즈 정리를 이용하여 𝑃(𝐶∣𝐷) 계산

베이즈 정리에 따르면:

4. 결론

불량품이 발생했을 때, 해당 부품이 C 공장에서 생산되었을 확률은 약 35.29% 이다.

26. 모평균(u)에 대한 90% 신뢰구간은?

모표준편차 8인 정규분포를 따르는 모집단에서 표본의 크기가 25인 표본을 추출하였을때 표본평균은 90이다. 모평균(u)에 대한 90% 신뢰구간은? (Z₀.₀₅=1.645, Z₀.₀₂₅=1.96)

🖍️ 87.368 < 𝜇 < 92.632
모평균 𝜇의 90% 신뢰구간은 (87.378, 92.632).

27. 확률 밀도 함수로부터 표본 3,1,2,3,3,이 추출되었다. 최대우도 추정법을 이용해 포아송 분포의 모수 𝜆에 대한 최대우도 추정값을 구하시오.

🖍️ 5/12
총 표본 개수 n = 5

29. 두 변수 간에 직선 관계가 있는지를 나타낼 때 가장 적절한 통계량은?

🖍️ 표본상관계수

30. 시각화 기법

  • 여러 축을 평행으로 배치하는 비교 시각화 기법
  • 수직선엔 변수를 배치
  • 측정 대상은 변숫값데 따라 위아래로 이어디는 연결선으로 표현

    🖍️ 평형 좌표계

31. 95% 신뢰구간은?

A 고등학교에서 남학생 25명을 대상으로 키를 측정하였더니 평균 키는 170cm이고 분산은 25이다. A 고 남학생 평균키에 대한 95% 신뢰구간은?

(Z₀.₀₂₅=2.060 (df=25), Z₀.₀₂₅=2.064 (df=24))

🖍️ 167.936 < 키 < 172.064
신뢰구간 = 표본평균 +/- (신뢰수준 x 표준오차(SE))

F 분포

  • F분포의 확률변수는 두 개의 독립인 카이제곱분포 확률변수의 비로 정의.
  • 카이제곱분포가 한 집단의 분산을 다룬다면, F분포는 두 집단의 분산을 다룸.
  • https://math100.tistory.com/47?category=836925

34. 주성분 분석에 대한 설명으로 옳지 않은 것은?

🖍️ 데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 어려워진다.
주성분 분석은 변수들 간의 상관관계를 제거하여 새로운 독립적인 축(주성분)을 생성하는 기법이므로, 오히려 상관관계를 제거하는 것이 PCA의 목적이며, 분석을 쉽게 만들어줍니다.

39. 확률 분포에 대한 설명으로 틀린 것은?

🖍️ 포아송 분포는 독립적인 두 카이제곱 분포가 있을 때, 두 확률 변수의 비이다.
포아송 분포는 단위 시간 또는 단위 공간에서 특정 사건이 발생하는 횟수를 모델링하는 이산 확률 분포로 확률 질량 함수(PMF)를 사용한다.

40. T-분포와 Z-분포에 대한 설명으로 틀린 것은?

🖍️ 표본의 크기와 상관없이 T-분포는 정규분포를 따른다.
👉 표본 크기가 무한대로 커질 때만 정규분포와 동일해진다.


42. 인공신경망은 어떤 값을 알아내는 게 목적인가?

🖍️ 가중치

43. CNN에서 Feature Map은 무엇인가?

CNN에서 원본 이미지가 5×5에서 Stride가 1이고, 필터가 3×3일 때, Feature Map은 무엇인가?

🖍️ 3×3

CNN(Convolutional Neural Network)에서 원본 이미지 크기가 5×5, 필터 크기가 3×3, Stride(이동 간격)가 1일 때, 생성되는 Feature Map의 크기를 구해보자.

44. 선형 회귀 모형의 가정에서 잔차항과 관련 없는 것은?

🖍️ 선형성

47. 분석 변수 선택 방법이 설명하는 기법은?

🖍️ 라쏘(Lasso)

Lasso (Least Absolute Shrinkage and Selection Operator) 회귀의 비용 함수:


Lasso 회귀L1 정규화를 통해 불필요한 변수를 제거하며, 중요한 변수만 선택하는 변수 선택(Feature Selection) 기법을 수행하는 방법이다.

50. TPR, FPR의 확률을 계산하시오.

다음은 암 진단을 예측한 것과 실제 암 진단결과를 혼동행렬로 나타낸 것이다. 아래 표를 보고 TPR, FPR의 확률을 계산하시오. (단, 결과가 음성이라는 뜻인 0을 Positive로 한다.)

🖍️ TPR: 3/4, FPR: 1/48

  • TPR = 45 / (45 + 15) = 3/4
  • FPR = 5 / (5 + 235) = 1/48

51. 예측력이 약한 모형을 연결하여 강한 모형으로 만드는 기법으로 오분류된 데이터에 가중치를 두어 표본을 추출하는 앙상블 기법과 알고리즘은?

🖍️ 부스팅 - GBM

55. 다음 이미지를 판별하기 위한 가장 적절한 분석법은?

🖍️ 분류


60.K-Fold에 대한 설명으로 틀린 것은?

🖍️ 1개는 훈련데이터, k-1개는 검증데이터로 사용된다.
K-Fold 교차검증에서는 데이터를 K개로 나누고, 그중 1개를 검증 데이터로, 나머지 (K-1)개를 훈련 데이터로 사용한다.

65. 분포 시각화 유형으로, 설명 변수가 늘어날 때마다 축이 늘어나는 시각화 방법은?

🖍️ 스타 차트

67. 다음 혼동행렬에서 참이 0이고 거짓이 1일 때, Specificity와 Precision은 무엇인가?

🖍️ Specificity: 5/6, Precision: 5/8

  • Specificity: 75 / (75 + 15) = 5/6
  • Precision: 25 / (25 + 15) = 5/8

70. F-Score에 들어가는 지표는?

🖍️ Precision, Recall

71. 종속변수가 범주형이고 독립변수가 수치형 변수 여러 개로 이루어진 변수 간의 관계를 분석하지 위해 이용할 수 있는 알고리즘은?

🖍️ 로지스틱 회귀 분석

72. 적합도 검정 기법으로 틀린 것은?

🖍️ 적합도 검정에서 자유도는 범주의 수 + 1이다.
적합도 검정에서 자유도(degrees of freedom, df)는 "범주의 수 - 1"이다.

73. 회귀분석 log(odds) = a + bx 설명으로 거리가 가장 먼 것은?

🖍️ a,b 둘 다 0이면 y확률은 0이다.
a와 b가 모두 0이면 log(odds) = 0이므로, odds = 1이 되고, 이에 따른 y의 확률은 0.5가 된다.

76. 혼동행렬에서의 FN해석에 대한 것은?

🖍️ 예측값 False, 실제값 True
https://sy-log.tistory.com/entry/빅데이터분석기사-필기-요약-빅분기-4과목-요약-IV-빅데이터-결과-해석-요약-1

79. 회귀계수 유의성 검정?

어느 중하교에서 1학년 학생들의 키의 차이가 2학년이 되면 더 커질 것이라고 예상된다. 1학년에서 6명을 뽑고, 2학년에서 8명을 뽑아서 각각의 성적의 분산을 조사해 봤더니, 1학년의 분산은 10.0이었고 2학년의 분산은 50.0이었다. 두모집단의 분산은 같다고 볼 수 있을까?

🖍️ F 통계량, p-value < 유의수준, 귀무가설 기각
두 모집단의 분산이 동일한지 검정하려면 F-검정(F-test for equality of variances) 을 사용


+. 향상도 계산

다음 품목별 판매 건수를 보고 (사과) > (배,포도) 의 향상도를 계산하시오.

품목건수
사과5
배, 바나나10
바나나5
사과, 배, 바나나, 포도2
배, 포도1
사과, 배, 포도3
사과, 포도4

🖍️ 향상도(Lift) = 1.167
(1보다 크므로, 사과를 구매하면 배와 포도를 함께 구매할 가능성이 조금 더 높음을 의미함)

  • If: 1보다 작으면, 사과를 구매하는 것이 배와 포도를 구매하는 것과 큰 연관성이 없음을 의미함.


참조,
https://newbt.kr/시험/빅데이터분석기사/21년%202회차/민동1216

profile
ʚȉɞ

0개의 댓글