예상문제 1장 데이터 전처리

Minkyung Park ·2022년 6월 24일

빅데이터 분석기사

목록 보기

1/2

아래의 설명에 해당하는 변수로 가장 적절한 것은?

특정한 의미를 갖는 작위적 정의에 의한 변수로, 특정 조건을 만족하는지의 여부 혹은 특정 함수를 활용해 사용자가 값을 만들어 의미를 부여한 변수

① 반응변수
② 파생변수
③ 설명변수
④ 요약변수

01. 특정한 의미를 갖는 작위적 정의에 의한 변수로, 사용자가 특정 조건을 만족하는지의 여부 혹은 특정 함수를 활용해 값을 만들어 의미를 부여한 변수는 '파생변수'이다.

반응변수: 독립 변수의 변화에 따라 값이 결정되는 다른 변수. 예를 들어 함수 y=f(x)에 있어서 x가 변하는 데에 따라 바뀌는 y를 이른다.
설명변수: 두 변수의 관계에서 설명을 하는 변수를 설명변수(explanatory variable),예측에 사용하는 정보.
요약변수: 수집된 정보를 분석에 맞게 종합(aggregate)한 변수,데이터 마트에서 가장 기본적인 변수.
: 총구매 금액, 금액, 횟수, 구매여부 등 데이터 분석을 위해 반들어지는 변수

데이터 전처리 단계에서 데이터의 이상치(Outlier) 에 대한 설명으로 틀린 것은?

① 최대값과 최소값 무조건 이상치로 볼수없음
② 데이터 입력 시 오타로 인해 잘못 입력된 경우
③ 분석 목적에 부합되지 않아 제거해야 하는 경우
④ 부정사용방지 시스템에서 의도된 이상 값

02. 최대값과 최소값을 무조건 이상치(Outlier)로 볼 수 없다.

다음 중 결측치에 대한 설명으로 가장 부적절한 것은?

① 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다.
② 관측치가 있지만 실상은 default 값이 기록된 경우에도 결측치로 처리해야 하는 것이 ~~바람직하다~~.기록된 값을 결측치로 처리하고 분석하는건 바람직하지 않다 / defult 값도
③ 결측치가 있는 경우 다양한 대치(Imputation)방법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있다.
④ 결측치가 20% 이상인 경우에는 해당 변수를 제거하고 분석하는 것이 바람직하다.

03. 관측치가 기록된 값을 결측치로 처리하여 분석에 활용하는 것은 옳지 않다. default 값이 기록된 경우라도 그 값이 의미를 가지고 있기 때문에 결측치로 처리하면 분석에 큰 오류로 작용할 수도 있다.

다음은 결측값을 확인하고 결측값을 대치하는데 활용되는 R 함수들이다. 설명이 잘못된 것을 고르시오.

① complete.cases(): 데이터 내 레코드에 결측값이 있으면 ~~TRUE, 없으면 FALSE~~를 반환하는 함수. 결측치 값이 없으면 TRUE, 있으면 false
② is.na(): 결측값이 NA인지 여부를 판단하여 반환하는 함수
③ knnImputation():k 최근 이웃 분류 알고리즘을 사용하여 NA 값을 대치하는 함수로 4개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 대치해 주는 함수
④ rflmpute(): 랜덤포레스트 모형의 경우, 결측값이 있으면 에러를 발생하기 때문에 랜덤포레스트 패키지에서 NA 결측값을 대치하도록 하는 함수
하는 함수

04.complete.cases 함수는 레코드에 결측값이 없으면 TRUE, 있으면 FALSE를 반환하는 함수이다.

결측값은 관측되어 얻어지는 실험 자료에서 종종 나타날 수 있으며, 결측값을 처리하는 방법으로는 대치법이 있다. 다음 중 결측값을 처리하는 방법에 대한 설명 중 부적절한 것은?

① Complete Analysis는 불완전 자료를 모두 삭제하고 완전한 관측치만으로 자료를 분석하는방법이다. 그러나 부분적 관측자료를 사용하므로 통계적 추론의 타당성 문제가 있다.
② 평균대치법은 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석하는 방법이다.
③ 단순확률대치법은 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안된 방법이다.
④ 다중대치법은 단순대치법을 한번하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법으로 순서는 1단계인 대치(Imputation step), ~~2단계인 결합(Combination step), 3단계인 분석(Analysis step)~~이다. 1단계 대치 / 2단계 분석 / 3단계 결합

05. 다중대치법의 순서는 1단계인 대치(Imputation step), 2단계인 분석(Analysis step), 결합(Combination step)이다.

다음 중 상자그림을 이용하여 이상치를 판정하는 방법에 대한 설명으로 가장 부적절한 것은?

① IQR=Q3-Q1이라고 할 때, Q1-1.5IQR<x<Q3+1.5IQR을 벗어나는 x를 이상치라고 규정한다.
② 평균으로부터 3* 표준편차 벗어나는 것들을 비정상이라 규정하고 ~~제거한다~~. 무조건적으로 제거는 아니다.
③ 이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다.
④ 이상치는 분포를 왜곡할 수 있으나 실제 오류인자에 대해서는 통계적으로 실행하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다.

06. ‘이상치’라고 규정한 자료는 분석에서 제외를 할 수 있지만 무조건적으로 제거하는 것은 올바르지 않다.

다음 중 이상값 검색을 활용한 응용시스템으로 가장 적절한 것은?

① 장바구니분석 시스템
② 데이터 마트
③ 교차판매 시스템
④ 부정사용방지 시스템

07. 이상값을 검색하여 한 집단에서 매우 크거나, 매우 작으면 의심되는 대상이므로 부정사용방지 시스템에 활용이 가능하다.

이상치에 대한 설명으로 가장 부적절한 것은?

① 이상값의 처리에 있어서, '조정' 방법은 '제거' 방법에 비해 데이터의 손실율이 높다. 낮다
② 의도하지 않게 잘못 입력한 경우나, 분석 목적에 부합하지 않는 것으로 판명된 데이터는 삭제하는 것이 바람직하다.
③ 설명변수의 관측치에 비해 종속변수의 값이 상이한 값을 이상치라 한다.
④ 통상 평균으로부터 표준편차의 3배가 되는 점을 기준으로 이상치를 정의한다.

08. 이상치를 처리할 때 '조정 방법을 이용하는 경우, '제거' 방법에 비해 데이터의 손실율이 낮아지기 때문에 설명력이 높아지는 장점이 있다.

다음은 이상값(outlier)에 대한 설명이다. 잘못 설명한 내용을 고르시오.

① 부정사용방지 시스템이나 부도예측시스템에서는 이상값(outlier)이라도 의미가 있으므로 제거하지 않는다.
② 이상값 인식에 있어서 가장 많이 활용하는 방법은 ESD(Extreme Studentized Deviation)
으로 평균에서 3 표준편차를 벗어나는 경우 이상값으로 인식하는 방법이다.
③ 이상값의 처리에 있어서 극단값 절단 방법과 조정 방법이 있으며 조정의 경우, 제거 방법에 비해 데이터 손실율이 높아 설명력이 낮아지는 단점이 있다.
④ 의도하지 않게 잘못 입력된 데이터인 경우 bad data에 해당되며 이러한 경우, 데이터를 제거하여 분석한다.

09. 이상치를 절단이나 조정하는 경우 제거방법에 비해 데이터의 손실율이 낮아지기 때문에 설명력이 높아지는 장점이 생긴다.

결측치(Missing data) 핸들링은 데이터분석을 위한 전처리 작업에서 가장 중요한 단계 중에 하나이다. R 프로그램에서 결측치의 표현으로 올바른 것은?

① Missing
② 999999999
③ NaN(Not a Number)
④ Not Available

10. R에서는 결측값을 NA(not available)로 처리한다.

파생변수는 특정 조건을 만족하는지의 여부 혹은 특정 함수를 활용해 사용자가 값을 만들어 의미를 부여한 변수이다. 다음 중 파생변수의 설명으로 적절한 것은?

① 파생변수는 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다.
② 파생변수는 많은 모델에서 공통적으로 많이 사용될 수 있다.
③ 파생변수는 재활용성이 높다.
④ 파생변수는 다양한 모델을 개발해야 하는 경우, 효율적으로 사용할 수 있다.
②,③,④는 요약변수 설명

11. 파생변수는 특정 조건을 만족하는지 여부와 특정 함수를 활용해 사용자가 값을 만들어 의미를 부여한 변수로서, 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야 한다. ②, ③, ④번 보기는 요약변수에 대한 설명에 해당한다.

다음 중 이상치(Outlier) 탐지기법을 유용하게 사용할 수 있는 분야의 예로 적절하지 않은 것은?

① 사기탐지 - 도난당한 신용카드의 구매 행위는 원 소유자의 행위와 다를 수 있다.
평상시의 행위와 다른 구매패턴을 조사하여 사기를 탐지할 수 있다.
② 환경파괴 - 자연 세계에서는 환경에 중요한 영향을 줄 수 있는 홍수, 가뭄 같은 사건들이 있다. → 사기탐지 의료 침입탐지 / 환경파괴는 적절X.
그러나 이러한 사건은 정상적인 환경에서 발생하는 사건으로 해석할 수 있다.
③ 의료 - 특정 환자에게 보이는 예외적인 증세나 검사 결과는 잠재적인 건강 문제를 나타낸다.
④ 침입탐지 - 컴퓨터 네트워크에 대한 공격은 보편화되었다. 침입의 다수는 네트워크에 대한 예외적인 행위를 감시하는 경우에 탐지할 수 있다.

12. 이상치 탐지에 활용할 수 있는 분야는 사기탐지, 의료, 침입탐지 등에 활용이 가능하지 환경 파괴에는 적용하기 어렵다.

평균으로부터 tstandard deviation 이상 떨어져 있는 값들을 이상값(outlier)으로 판단하고 t는 3으로 설정하는 이상치 탐지 방법은 무엇인가?

① IQR(Interquartile Range)
② 기하평균 활용(기하평균 ±2.5 × 표준편차)
③ Box Plot 활용
④ ESD(Extreme Studentized Deviation)

13. 평균으로부터 t standard deviation 이상 떨어져 있는 값들을 이상값(outlier)으로 판단하고 t는 3으로 설정하는 이상치 탐지 방법은 ESD(Extreme Studentized Deviation)이다.

다음 중 결측치의 유형과 유형에 대한 설명을 짝지은 것으로 옳지 않은 것은?

① 완전 무작위 결측(MCAR, Missing Completely at Random) : 결측치가 관측된 다른변수들과 아무런 연관이 없이 완전히 랜덤하게 발생한 경우를 말한다.
② 무작위 결측(MAR, Missing at Random) : 실제 데이터에서 가장 빈번한 형태로, 어떤변수의 결측치가 관측된 다른 변수에 영향을 받지만 해당 변수의 비관측값들과는 연관되어있지 않은 경우를 말한다.
③ 무작위 결측(~~MAR~~, Missing at Random) : 조사에서 응답자가 우연히 질문을 뛰어넘은 경우가 이에 해당한다. MCAR, Missing Complety at Random
④ 비무작위 결측(NMAR, Not Missing at Random) : 어떤 변수의 결측치가 완전 무작위 또는 무작위 결측이 아닌 경우이다.

14. 조사에서 응답자가 우연히 질문을 뛰어넘은 경우는 완전 무작위 결측(MCAR, Missing Completely at Random)에해당한다.

다음 중 결측치를 처리하는 방법에 대한 설명으로 옳지 않은 것은?

① 단순 삭제(completes analysis)란 불완전 데이터(결측값이 존재하는 레코드)는 모두 삭제하고 완전한 데이터만으로 분석하는 방법이다. ○
② 데이터의 손실을 보완하기 위해서는 단순 삭제보다는 평균 대치법이나 단순확률 대치법을이용할 수 있다.
③ 단순 확률 대치법은 평균 대치법에서 추정량 표준오차가 과소 추정되는 문제를 보완하고자 고안된 방법이다.
④ 평균 대치법은 결측치를 관측 데이터의 평균값을 대치하는 ~~조건부 평균 대치법~~비조건부 평균과 회귀분석을 활용해 결측치를 대치하는 ~~조건부 평균 대치법~~조건부 평균 대치법으로 나눌 수 있다.

15. 평균 대치법은 결측치를 관측 데이터의 평균값을 대치하는 비조건부 평균 대치법과 회귀분석을 활용해 결측치를 대치하는 조건부 평균 대치법으로 나눌 수 있다.

다음 설명의 괄호 안에 들어갈 결측치 처리 방법으로 옳은 것을 고르시오.

( )은 대치·분석·결합의 과정으로 이루어지며, 단순 대치법을 m번 수행하여 m개의 가상적 완전데이터를 만드는 방법이다.

① Nearest Neighbour 방법
③ Hot-deck 방법
PART 02 빅데이터 탐색
② 비조건부 평균 대치법
④ 다중 대처법 -> 대치,분석,결합과정으로 이루어져 있다.

16. 문제에서 주어진 설명은 결측치의 처리 방법 중 '다중 대치법(Multiple Imputation)'에 대한 것이다.

이상치(Outlier)란 관측된 데이터의 범위에서 많이 벗어나 있는 아주 작거나 아주 큰 값으로, 정상범위 밖에 있는 값을 뜻한다. 이상치에 대한 설명으로 옳지 않은 것은 무엇인가?

① 이상치는 잘못 입력된 값일 수도 있으나 실제로 존재하는 값일 수도 있으므로 분석의 목적이나 종류에 따라 적절한 판단이 필요하다.
② 상자그림을 통해 이상치를 판별할 때 [Q1-(1.5×IQR)~Q3+(1.5×IQR)]를 벗어난 데이터를 이상치로 간주할 수 있다.
③ 정규분포 형태의 데이터에서 평균으로부터 ~~±2×~~ ±3×표준편차만큼 떨어진 값을 이상치로 판별할 수 있다.
④ 데이터를 군집화(Clustering)했을 때 작은 크기의 클러스터 혹은 다른 클러스터들과의거리가 너무 먼 클러스터에 속한 관측치를 이상치로 볼 수 있다.

17. 정규분포 형태의 데이터에서 평균으로부터 ±3 ×표준편차만큼 떨어진 값을 이상치로 판별할 수 있다.

데이터 통합(Data Integration)이란 서로 다른 원천의 여러 데이터를 결합하거나 서로 다른 데이터들이 호환 가능하도록 통합하는 작업이다. 이에 대한 설명으로 옳지 않은 것은 무엇인가?

① 데이터 통합 시 서로 다른 소스에서 발견되지만 실제 그 내용이 동일한 항목을 가리키는 경우, 이들을 어떻게 대응시킬 것인가 하는 것은 데이터 중복(Redundancy)에 관한 문제이다.
② 데이터 통합 시 동일한 데이터가 여러 번 입력되지 않도록 중복 데이터를 검출하고 이를 통합시켜야 한다. 이러한 통합작업에는 메타데이터 기반의 데이터 품질 관리, 데이터 충돌 탐지,그리고 의미적 이질성의 해소 등이 포함된다.
③ 여러 소스로부터의 데이터를 통합하는 대표적인 예는 데이터 웨어하우스다.
④ 여러 소스의 데이터를 온전한(coherent) 하나의 데이터로 합치는 과정에서 하나의 속성에대해 여러 상충되는 값이 발생하는 불일치의 문제가 발생할 수 있다.

18. 데이터 통합 시 서로 다른 소스에서 발견되지만 실제 그 내용이 동일한 항목을 가리키는 경우 이들을 어떻게 대응시킬 것인가 하는 것은 개체 식별(Entity Identification)에 관한 문제이다.

변수(variable)란 데이터를 담는 저장소로 데이터베이스 관리시스템(DBMS)에서는 속성이라고 부르며, 테이블 내의 열에 해당한다. 변수가 담고 있는 데이터의 형태와 속성에 따른 변수 유형과 그에 대한 설명으로 바르게 짝지어진 것은?

① ~~명목형~~ 순서형 변수 - 성적(1등급/2등급/3등급), 경제수준(상/중/하) 등이 명목형 변수의 예에 해당한다.
연소성
② ~~이산형~~ 연속형 변수 - 사람의 키, 몸무게, 한 가구의 소득 등이 이산형 변수의 예에 해당한다.
③ 순서형 변수 - 측정값이 일정한 범주에 속하도록 이름을 붙이지만, 각 범주 간에 순위가 있는순서 -순위변수를 의미한다.
④ ~~연속형~~ 이산형 변수 - 변수가 취할 수 있는 값들을 셀 수 있는 경우를 뜻한다.

19. ①번은 순서형 변수, ②번은 연속형 변수, ④번은 이산형 변수에 해당하는 설명이다.

분석 모형에 가장 적절한 변수를 선택하는 과정을 변수 선택(Variable Selection) 혹은 피처 선택(Feature Selection) 이라고 한다. 변수 선택 방법과 그에 대한 설명으로 바르지 않은 것은?

① 필터 방법(Filter Method)은 특정 모델링 기법에 의존하지 않고, 데이터에 대한 통계적 특징을
이용해 변수를 선택하는 방법이다.
② 래퍼 방법(Wrapper Method)은 변수의 일부만을 사용해 모델링을 수행하고 그 결과를
확인하는 작업을 반복하여 변수를 선택하는 방법으로 전진선택법, 후진제거법, 단계별선택법
등이 그 예에 해당한다.
③ 임베디드 방법(Embedded Method)은 모델링 기법 자체에 변수 선택이 포함되어 있는 방법이다.
④ 라쏘 회귀(Lasso Regression)나 릿지 회귀(Ridge Regression)는 ~~필터 방법~~ 임베디드 방법 을 사용하여 변수를 선택하는 기법이다.

20. 라쏘 회귀(Lasso Regression)나 릿지 회귀(Ridge Regression)는 필터 방법이 아니라 임베디드 방법에 해당한다.

변수 선택을 위한 래퍼 방법(Wrapper Method)의 각 유형에 대한 설명으로 옳지 않은 것은?

① Forward Selection(전진 선택)은 변수가 없는 상태로 시작하며 반복할 때마다 가장 중요한 변수를 추가하여 더 이상 성능의 향상이 없을 때까지 변수를 추가하는 방법이다.
② Backward Elimination(후진 제거)는 모든 변수를 포함한 모델에서 시작하며 가장 덜 중요한 변수를 하나씩 제거하면서 모델의 성능을 향상시킨다.
③ Stepwise Selection(단계별 선택)은 모든 경우의 모델을 비교하여 최선의 모형을 찾는 방법이다.
④ Best Subset은 독립변수 개수별로 best model을 선정한 후 다시 그 모형끼리 비교하여 가장 적절한 모형을 선택하는 방법이다.

21. Stepwise Selection(단계별 선택)은 전진 선택법과 후진 제거법을 결합하여 사용하는 방식으로, 모든 변수를 포함한 모델에서 시작하여 통계치를 개선시킬 수 있도록 변수 삭제 및 추가를 반복하는 방법이다.

차원축소란 수많은 변수들로 구성된 다차원 데이터 셋에서 변수의 개수를 줄임으로서 차원을 축소하여 새로운 차원의 데이터를 생성하는 것을 의미한다. 대표적인 차원축소 기법에 대한 다음의 설명 중 옳지 않은 것은?

① 주성분 분석은 여러 변수들의 선형결합으로 이루어진 주성분(Principal Component)이라는'새로운 변수를 만들어 기존의 변수들을 요약하여 축소하며, ~~각 주성분~~ 제1성분 그다음 제2주성분이 중요 간에는 어떤 것이 더 중요하다는 의미가 존재하지 않으며 서로 대등한 성질을 지닌다.
② 다차원척도법은 데이터 속에 잠재해 있는 패턴, 구조를 찾아내어 소수 차원의 공간에 객체간 근접성(Proximity)을 시각화하는 통계기법으로 차원축소에 사용될 수 있다.
③ 차원축소 기법 중 하나인 요인분석은 여러 개의 변수들로 이루어진 데이터에서 변수들 간의 상관관계를 고려하여 서로 유사한 변수들을 묶어 새로운 잠재요인을 추출해내는 분석 방법이다.
④t-SNE는 데이터에서 지역 인접성(local neighborhoods)을 보존하려고 시도하는 차원축소 알고리즘으로, 비선형적(nonlinear)이며 비결정적(nondeterministic)이다.

22. 주성분 분석은 여러 변수들의 선형결합으로 이루어진 주성분(Principal Component)이라는 새로운 변수를 만들어 기존의 변수들을 요약하여 축소한다. 제1주성분이 데이터의 가장 많은 부분을 설명할 수 있어 가장 중요하고, 그 다음으로 제2주성분이 중요하게 취급된다.

다음 중 데이터 전처리 시 변수의 개수를 줄이는 차원축소를 위해 사용될 수 있는 방법으로 적절하지 않은 것은?

① 선형 판별분석
② CNN CNN: Convolution Netural Network
③ 특이값 분해
④ 서포트 벡터 머신

23. CNN(Convolution Netural Network)은 변수의 개수를 줄이는 차원축소에 사용되지 않는다

아래의 설명 ㄱ~ㄹ 중 요약변수'에 대한 설명만을 바르게 짝지은 것은?

ㄱ. 사용자(분석자)가 특정 조건 혹은 특정 함수에 의해 값을 만들어 의미를 부여한 변수이다. ->파생
ㄴ. 수집된 정보를 분석에 맞게 종합한 변수이다. -> 요약
ㄷ. 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있다. -> 파생
ㄹ. 합계, 횟수와 같이 간단한 구조이므로 자동화하여 상황에 맞게 또는 일반적인 자동화프로그램으로 구축 가능하다. -> 요약

① ㄱ, ㄷ
② ㄴ, ㄹ
③ ㄱ, ㄴ, ㄹ
④ ㄱ, ㄷ, ㄹ

24. ㄱ, ㄷ은 '요약변수'가 아닌 '파생변수'에 대한 설명이다.

상자그림을 활용해 이상치를 탐색하려고 할 때, 아래와 같은 정보가 주어진 경우 이상값이라 판단하는 데이터의 범위는 무엇인가?

summary(data)
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.300 5.100 5.800 5.843 6.400 7.900

① (3.8, 7.7)
② (15, 8.35)
③ (3.8)
④ (2.5,9)

25. 상한값 제1사분위수-(1.5×IQR)=5.1-(1.5×1.3) = 3.15, 하한값 제3사분위수+(1.5×IQR)=6.4+(1.5×1.3)=8.35 (참고 : IQR=제3사분위수-제1사분위수)

다음 중 변수 변환 기법 중 하나인 비닝(Binning)에 대한 설명으로 옳지 않은 것은?

① 데이터 분석의 성능을 향상시키기 위해서 혹은 해석의 편리성을 위해 이산형 변수를 범주형
변수로 변환하는 기법이다.
② 비율척도로 측정된 나이 변수를 10대, 20대, 30대와 같이 특정 범주로 나누거나 청소년(19세
이하), 청년(20~34세), 중장년(35~54세) 등으로 특정 의미 기준으로 나누는 것을 비닝의 예로
들 수 있다.
③ 버닝을 수행하면 데이터를 정규분포와 가까운 형태로 변환할 수 있다.
④ 이산값을 평활화(smoothing)하여 단순한 이산값으로 변환할 수 있다.

26. 데이터를 정규분포와 가까운 형태로 변환할 수 있는 기법은 로그 변환(Log Transformation)이다.

아래의 설명이 가리키는 차원축소 방법에 대한 설명으로 옳은 것은?

선형 대수의 일반적인 기법이며, 실수 공간에서 정의된 mxn 차원의 행렬에서 특이값을 추출하고 이를 활용해 데이터의 차원을 축소하는 방법이다.

① 데이터에서 지역 인접성(local neighborhoods)을 보존하려고 시도하는 차원축소 알고리즘이다.
② 변수 사이에 강력한 선형 관계가 존재하는 경우 유용하다.
③ 분류될 군집의 수가 적은데 분석 데이터셋의 분석차원이 너무 많거나 수집한 케이스 데이터의양이 많은 경우 오류가 발생한 위험이 높으므로 주의해야 한다.
④ mxn 행렬의 기하학적 의미는 차원의 벡터를 n차원으로 변환시키는 것에 있는데, 즉, m>n 경우라면 차원 축소를 의미한다고 볼 수 있다.

27. 주어진 설명은 특이값 분해 (SVD)에 대한 것이다. ①번은 t-SNE(T-distributed stochastic neighbor embedding), ②번은 주성분 분석(PCA, Principal Component Analysis), ③번은 선형 판별분석(LDA, Linear Discriminant Analysis)에 해당하는 설명이다.

다음 설명에 해당하는 데이터 불균형(Data Imbalance) 처리 방법으로 옳은 것은?

기존에 있는 데이터를 복제하는 대신 더 작은 수의 관측치를 가지고 있는 집단의 데이터들과 일정한 거리를 가진 가상의 데이터들을 새로 생성하여 오버 샘플링을 진행하는 방법이다.

① SMOTE(Synthetic Minority Oversampling Technique)
② ADASYN(Adaptive Synthetic Sampling Approach)
③ 토멕링크(Tomek Links)
④ CNN(Condensed Nearest Neighbor)

28. 주어진 설명은 SMOTE(Synthetic Minority Oversampling Technique)에 대한 것이다.

다음 중 아래의 정의에 해당하는 샘플링의 기법으로 옳지 않은 것은?

더 많은 수의 데이터를 가지고 있는 집단의 일부만 추출하여 데이터 샘플링을 진행함으로써 데이터 불균형을 해결하는 방법이다.

① 토멕링크(Tomek Links)
② OSS(One-side Selection)
③ CNN(Condensed Nearest Neighbor)
④ Borderline SMOTE

29. 문제에서 주어진 설명은 언더 샘플링(Under Sampling)의 정의이며, 보기 ④번은 오버 샘플링(Over Sampling)의 기법에 해당한다.

다음 중 오버 샘플링(Over Sampling)에 대한 설명으로 옳지 않은 것은?

① 정보가 손실되지 않는다는 장점이 있다.
② 데이터의 수를 증가시키므로 복제되는 데이터에 분류기가 과적응할 수 있다는 단점이 있다.
③ 오버 샘플링 기법에는 Resampling, SMOTE, Borderline SMOTE 등이 있다.
④ 데이터의 크기가 클 때 효과적이며 계산시간이 감소한다.

30. 언더 샘플링(Under Sampling)을 통해 데이터 불균형을 해결할 경우, 데이터의 수가 줄어들어 계산시간이 감소한다.

Minkyung Park

다음 포스트

예상문제 1장 데이터 전처리

빅데이터 분석기사

예상문제 2장 데이터 탐색

0개의 댓글