다음 중 관계형 데이터베이스(RDB)라고 보기 어려운 것은?
① MongoDB
② MySQL
③ MariaDB
④ PostgreSQL
다음 중 특정 웹페이지를 크롤링(crawling)하기 이전에 크롤링 허용범위를 확인하기 위해 살펴보아야 할 문서로 옳은 것은?
① site.map
② warning.docx
③ robots.txt
④ crawling.txt
사용자 인증이 필요한 API의 경우 요청 URL에 발급받은 이것을 파라미터에 명시하여호출을 한다. 여기서 말하는 API의 이것은 무엇인가?
① password
② key
③ Auth
④ Certification
다음 중 ETL(Extraction, Transformation and Load) 과정과 거리가 먼 것은?
① Cleansing
② Integration
③ Profiling
④ Text Mining
결측치 처리 방법 중 결측치가 있는 변수가 아닌 다른 변수에서 비슷한 값을 찾아 랜덤 샘플링 후 그 값을 복사해와서 결측치를 메꾸는 방법은 무엇인가?
① Sampling Imputation
② Hot Deck Imputation
③ Cold Deck Imputation
④ Stochastic Imputation
다음 중 비율을 나타내는 그래프로 적절하지 않은 것은?
① 파이 차트
② 밀도 그래프
③ 막대 그래프
④ 도넛 차트
계층적 군집분석에서 두 군집간의 거리를 측정하기 위해 다양한 방법이 사용될 수 있다. 이 때 두 군집 사이의 거리를 각 군집에서 하나의 관측값을 뽑았을 때 나타날 수 있는 거리의 최대값을 기준으로 계산하는 연결법은 무엇인가?
① 표본 연결법
② 와드 연결법
③ 중심 연결법
④ 완전 연결법
다음 중 일원 분산 분석과 관련된 설명으로 옳지 않은 것은?
① 검정통계량의 계산은 각 집단의 분산을 활용한다.
② Scheffe 검정을 활용하여 사후검정을 할 수 있다.
③ 자료의 정규성과 관련없이 실시할 수 있다.
④ 연속형 변수는 독립변수로 적절하지 않다.
자료를 평활화 하기 위하여 단순 이동 평균을 사용하고자 한다. 이 때 1시간 단위로 순차적으로 기록되어있는 시계열 자료를 2일 단순 이동 평균을 실시했을 때 발생하는 결측치 개수는 몇 개 인가?
※ 단, 기존 시계열 데이터에 결측치는 존재하지 않는다고 가정
① 1
② 2
③ 23
④ 47
다음의 예문에서 지칭하는 [도구]는 무엇인가?
이항 로지스틱 회귀분석의 모델 성능 평가를 위한 도구 중 하나로, 이 도구는 모든 임계값에 대해 모델의 성능을 평가할 수 있다. 그리고 이 도구를 활용하여 AUC 또한 계산할 수 있다.
① ROC Curve
② Confusion Matrix
③ Odds Ratio
④ Threshold
아래에 주어진 숫자를 최대값을 1, 최소값을 0으로 하는 Min-Max 정규화를 실시하였을 때, 8은 얼마로 변환되는가?
[2, 6, 8, 12]
① 0.6
② 0.8
③ 0.4
④ 0.5
다음의 t-검정의 검정통계량 계산식에 해당하는 t-검정은 무엇인가?
① 단일 표본 t-검정
② 대응 표본 t-검정
③ 독립 표본 t-검정
④ 연관 표본 t-검정
다음 혼동행렬을 참고하여 계산한 정밀도-재현율은 얼마인가?
① 0.3
② 0.5
③ 0.8
④ 1.3
시계열 분석에서 차분(differencing)과 정상성(stationarity)에 관한 내용으로 옳지 않은 것은?
① 계절성 차분은 관측치와, 같은 계절의 이전 관측값과의 차이를 말한다.
② 시계열 자료가 추세가 있고 수준이 변하더라도 그 값이 일정하면 정상이다.
③ 확률 보행은 정상성을 띄지 않는 데이터에 활용할 수 있다.
④ 2차 차분은 차분이 정상성을 띄지 않는 경우 확인할 수 있다.
다음의 예문에서 지칭하는 [이것]은 무엇인가?
이것은 텍스트 마이닝의 데이터 처리에서 자연어 문장의 필수 구성요소지만 분석에서는 크게 중요하지 않아 제거하는 단어를 지칭한다. 이것의 영문 예시는 a, the 등이 있으며 국문의 경우 그것, 그런 등이 있다.
① 불용어
② 관사
③ 접속사
④ 말뭉치
문제 정답 문제 정답
1 ① 11 ①
2 ③ 12 ②
3 ② 13 ①
4 ④ 14 ②
5 ② 15 ①
6 ②
7 ④
8 ③
9 ④
10 ①
다음 중 상자수염그림과 관련 없는 것은?
① 평균
② 중앙값
③ 사분위범위
④ 이상치
다음 중 위치 통계량이 아닌 것은?
① 최대값
② 중앙값
③ 첨도
④ 평균
다음 중 데이터 수집과 관련 없는 것은?
① Web Crawling
② RESTful API
③ Relational DataBase
④ Text Mining
다음 예문에 해당하는 내용과 가장 가까운 것은?
데이터의 스케일을 조정하는 것. 다양한 기법이 있으며 대표적으로 최소값을 0, 최대값을 1로 조정하는 방법이 있다.
① Normalization
② Scale out
③ ETL
④ Feature Engineering
다음 상황에서 사용할 수 있는 검정 방법을 고르시오.
QA부서에서는 이번에 도입한 신규 장비가 제원과 맞게 정상 동작하는지 확인하기 위해 장비 매뉴얼에 적힌 생산 제품중량 1.4kg와 시험 생산한 제품 50개의 중량 평균 1.5kg를 비교 검정하고자 한다.
① 모집단 t-검정
② 독립표본 t-검정
③ 대응표본 t-검정
④ 단일표본 t-검정
선형회귀분석에서 전반적인 모델의 성능을 평가하기 위해 참고하는 것과 거리가 먼 것은?
① 결정계수
② ROC
③ RMSE
④ 잔차 그래프
다음의 예문에서 지칭하는 [이 현상]은 무엇인가?
예측 모델을 학습함에 있어 모델이 학습 데이터셋에 지나치게 맞춰지는 것을 주의해야 한다. 이 현상을 방지하기 위해 Hold-out test 등 다양한 방법이 고려된다.
① Underflow
② Overfitting
③ Local Minima
④ Cross Validation
다음 머신러닝 기법 중 비교사학습과 관련된 기법은?
① k-means 군집분석
② 의사결정나무
③ Q-learning
④ 로지스틱 회귀분석
다음의 예문과 관련된 확률적 표본추출 방법은 무엇인가?
특정 기준에 의해 순서대로 나열된 표본에서 최초 표본을 임의로 선정한 후 매 특정 간격만큼 뒤에 있는 표본을 선택하는 방법
① 단순 임의 표본추출
② 층화 표본추출
③ 군집 표본추출
④ 계통 표본추출
다음 시나리오를 위해 사용해야 하는 조인 방법으로 가장 적절한 것은?
병원에서 직전 금요일 민원이 이전보다 많이 접수되어 원인을 파악하고자 한다. 관련하여 보다 상세한 내용을 알아보기 위해 환자-간호사 테이블과 민원을 제기한 환자 테이블의 교집합을 확인하여 해당 간호사와 1:1 면담을 차례대로 실시하고자 한다.
① Right Join
② Left Join
③ Inner Join
④ Outer Join
두 사람의 인사데이터는 다음과 같다. 이 때, 두 사람의 유클리디안 거리는 얼마인가?
① 5
② 6
③ 7
④ 25
문제 정답 문제 정답
1 ① 11 ①
2 ③ 12 ③
3 ④
4 ①
5 ④
6 ②
7 ②
8 ①
9 ④
10 ③