ADsP [데이터 분석]

ewillwin·2024년 5월 9일
1

ADsP

목록 보기
1/1

데이터 전처리

  • 데이터 레이크: 목적을 가지고 있지 않은 모든 데이터가 자유롭게 저장된 저장소
    데이터 웨어하우스: 형식을 갖고 데이터가 저장됨
    데이터 마트: 여러 곳에 흩어진 데이터를 수집한 뒤 기업의 의사결정을 위해 공통의 형식으로 변환된 데이터의 집합으로써 특정 목적을 달성하기 위해 추출된 작은 데이터 집합

  • 데이터프레임을 하나 이상의 특정 변수를 기준으로 나누는 함수와 나누어진 데이터를 원하는 구성으로 재결합하는 함수를 제공하며, 유연한 데이터 재구성 및 통계 처리가 가능하도록 도와주는 패키지. 대표적인 함수로는 melt와 cast가 있다 -> reshape

  • 데이터 분석 전 이해.. 데이터 기초통계량 값 확인 및 다양한 관점에서 데이터를 바라보기 위해 시각화 등을 수행하는 작업 -> 탐색적 데이터 분석(EDA)

  • 결측값도 의미를 띌 수 있다. / 결측값 처리를 위한 다중 대치법은 대치, 분석, 결합의 단계로 구성 / Amelia 패키지의 missmap 함수를 통해 결측값을 시각화할 수 있음

  • 단순 대치법: 완벽하지 못한 False값에 대해 결측값 제거를 수행 / 조건부 평균 대치법: 회귀분석을 통해 결측값을 대치 / 단순 확률 대치법: 평균 대치법의 표준 오차에 대한 과소 추정을 보완하기 위해 고려된 방법 / 다중 대치법: n번의 대치를 통해 가상의 자료속에서 결측값을 대치하는 방법

  • 데이터 입력 시점에 사람의 실수로 인해 발생할 수 있는 값도 이상값의 한 종류 / ESD는 이상값을 판단하는 기준으로 평균으로부터 표준편차의 3배를 넘어서는 데이터를 이상값으로 판단 / 사분위수를 이용한 이상값 판단 기준으로는 IQR(Q3-Q1)의 1.5배를 사용

  • 평균으로부터 표준편차의 3배 이상 떨어져 있는 값을 이상치로 판단할 수 있다 / 군집분석을 이용해 다른 데이터들과 거리상 멀리 떨어진 데이터를 이상치로 판단할 수 있다 / Q1 - 1.5*IQR < data < Q3 + 1.5*IQR 벗어나는 경우 이상치로 판단 / 회귀분석에서는 동일수준의 설명변수에 대해 종속변수의 상이한 값을 이상치로 판단

  • 파생변수는 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수. 파생변수는 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야함. / 많은 모델에서 공통적으로 사용x, 재활용성 낮음, 다양한 모델을 개발해야 하는 경우 비효율적

  • 관측치가 기록된 값을 결측치로 처리하여 분석하는 것은 옳지 않다. default 값이 기록된 경우라도 의미가 있기 때문에 결측치로 처리하면 분석에 큰 오류로 작용할 수 있다.

  • complete analysis는 불완전 자료를 모두 삭제하고 완전한 관측치만으로 자료를 분석하는 방법. 그러나 부분적 관측자료를 사용하므로 통계적 추론의 타당성 문제가 있음 / 평균 대치법은 자료의 평균값으로 결측값을 대치 / 단순확률대치법은 평균대치법에서 추정량 표준오차의 과소 추정 문제를 보완하고자 고안된 방법 / 다중대치법은 추정량의 표준오차의 과소추정 또는 계산의 난해성 문제가 보완된 방법

  • 평균으로부터 3*표준편차 벗어나는 것들을 비정상이라고 규정하고 제거한다 -> 틀림! (이상치는 분석에서 제외할 수 있지만 무조건적으로 제거할 수 는 없다) / 이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다

  • 이상값 검색을 활용한 응용시스템 -> ex) 부정사용방지 시스템

  • 군집분석을 이용하여 다른 데이터들과 거리상 멀리 떨어진 데이터를 이상치로 판정한다 / 데이터를 측정과정이나 입력하는 과정에서 잘못 포함된 이상치는 삭제 후 분석 한다 -> 틀림! 이상치는 분석에 의미가 있을 수 있으므로 제거하면 안된다 / 설명변수의 관측치에 비해 종속변수의 값이 상이한 값을 이상치라 한다 / 통상 평균으로부터 표준편차의 3배가 되는 점을 기준으로 이상치를 정의한다

  • 이상값의 처리에 있어서 극단값 절단 방법과 조정 방법이 있으며, 조정의 경우 제거에 비해 데이터 손실율이 낮아지기 때문에 설명력이 높아지는 장점이 있다

  • R에서 multi-core를 사용하여 반복문을 사용하지 않고 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함하는 패키지 -> plyr

  • 데이터 전처리 단계에서 데이터의 이상치에 대한 설명으로 틀린 것은? -> 최대값과 최소값. / 데이터 입력 시 오타, 분석 목적에 부합되지 않아 제거해야하는 경우, 부정사용방지 시스템에서 의도된 이상 값은 이상치 맞음

  • 평균으로부터 t stadard deviation (표준편차) 이상 떨어진 값을 이상값으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘은? ESD


통계분석 (개요)

  • 두 개의 사건에 대해 두 사건이 서로 공통 부분이 존재하지 않는 경우를 "배반"관계라 하며, 두 개의 사건이 공통인 부분이 존재한다 하더라도 서로가 서로에게 영향을 주지 않는 경우를 "독립" 관계에 있다고 한다.

  • 모집단의 구성비율을 반영한 표본집단을 생성하기 위해 모집단을 여러 개의 이질적인 집단으로 나눈 뒤 모집단의 비율과 같은 비율로 각 군집으로부터 표본을 추출하는 방법 -> 비례 층화 추출법

  • 명목 척도: 어느 집단에 속하는 지 / 순서 척도: 서열 관계가 있을 때 / 구간 척도: 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료. 절대적 원점은 없다. / 비율 척도: 절대적 기준인 0이 존재하고 사칙연산이 가능 // 구간 척도는 절대적 기준 0이 존재하지 않음. 비율 척도가 절대적 기준 0이 존재

  • 상관계수는 두 변수에 대해 서로의 선형관계를 나타내는 척도 / 공분산은 최대, 최소값이 존재하지 않음 / 상관계수 값 0은 두 변수의 선형관계가 존재하지 않음을 의미 / 공분산은 두 개의 변수에 대한 선형 관계를 나타내는 측도임

  • 왜도 < 0 -> 평균<중앙값<최빈값 / 왜도 = 0 -> 평균=중앙값=최빈값 / 왜도 > 0 -> 최빈값<중앙값<평균

  • 기댓값: "X P(X)"의 합계
    분산: "X제곱
    P(X)"의 합계

  • 이산형 확률변수: 베르누이, 이항, 기하, 다항, 포아송
    연속형 확률변수: 균일분포, 정규분포, 지수분포, t-분포(평균이 동일한지 알고자할 때 사용), 카이제곱 분포(모분산에 대한 가설 검정에 사용), F-분포(분산의 동일성 검정에 사용)

  • 발생할 수 있는 사건이 0과 1인 두 개의 확률분포로 n번 시행할 때 처음으로 성공인 시행이 나올 때까지 n번 시행할 확률을 나타내는 분포 -> 기하분포 (처음으로 라는 단어가 나온다면 기하분포가 정답)

  • "추정과 가설검정"에 대한 설명
    -> 모든 데이터를 조사하는 전수조사는 불가능하여 표본조사로부터 모집단을 파악하는 것이 목적
    -> 점 추정이란 모집단이 어느 특정한 값일 것이라 여기는 값을 예측하는 것
    -> 귀무가설이란 대립가설에 반하는 가설로 흔히 모집단이 어떤 값일 것이라 특정하는 가설
    -> 더 위험하다 생각되는 1종 오류를 조정

  • 모집단에서 표본을 추출하는 방법 -> 단순랜덤 추출법, 계통추출법(번호를 랜덤하게 부여한 후 특정한 간격별로 추출), 집락추출법(군집을 나눈 후 군집별로 단순랜덤 추출), 층화추출법(계층을 고루 대표할 수 있도록 표본 추출)

  • 데이터의 한 부분으로 특정 사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터웨어하우스 -> 데이터마트

  • 확률이란 특정사건이 일어날 가능성의 척도 / 통게적 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합을 표본 공간/ 사건이란 표본 공간의 부분 집합 / 서로 배반인 사건들의 합집합의 확률 = 각 사건들의 확률의 합 / 두 가선 A, B가 독립이면, 사건 B의 확률 = A가 일어난다는 가정하에서의 B의 조건부확률 / 확률변수 X가 구간 또는 구간들의 모임인 숫자 값을 갖는 확률분포함수를 연속형 밀도함수라 한다

  • 데이터의 정규성을 확인하기 위한 방법 -> 히스토그램, Q-Q Plot, Shapiro Wilk test / Durbin Watson test는 회귀모형 오차항의 자기 상관이 있는 지에 대한 검점

  • 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포 -> 포아송 분포

  • 성공 확률 0.3인 경우 -> 기댓값도 0.3

  • 상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 이질적인 모집단의 원소들로 서로 유사한 것끼리 몇 개의 층을 나눈 후 각 게층에서 포본을 랜덤하게 추출 -> 층화추출법

  • 만족도 5점 척도 조사 -> 순서 척도 (서열 관계가 있을 때)

  • 확률변수 X와 Y의 공분산?
    공분산은 최대 최소가 없다
    X, Y 방향의 선형성
    cov(X, Y) = E[(X-u)*(Y-u)]
    X, Y가 독립이면 cov(X, Y) = 0

  • 두 종류의 수면 유도제를 복용 전과 후의 평균 체중 비교에 사용할 수 있는 분석 -> 쌍체 t검정


통계분석 (회귀분석)

회귀분석이란 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계법 (함수의 개념과 비슷) (Regression)

  • 선형회귀분석의 가정: 선형성(입력변수와 출력변수의 관계가 선형), 등분산성(오차의 분산이 입력변수와 무관하게 일정), 독립성(입력변수와 오차는 관련 없다), 비상관성(오차들끼리 상관이 없다), 정상성(오차의 분포가 정규분포를 따른다/ Q-Q plot, 히스토그램, Shapiro-Wilks test로 확인)

  • 회귀분석에서 각 독립변수에 대한 회귀계수를 추정하기 위한 방법으로 잔차의 제곱합이 최소가 되는 회귀식을 찾는 방법 -> 최소제곱법

  • 결정계수 -> 회귀제곱합/전체

  • 여러 개의 독립변수 후보들 중 가장 최적인 회귀방정식을 찾는 방법으로 상수항만 있는 모형에서 출발하여 벌점에 따라 변수를 추가하는 반복 작업을 통해 최적 회귀방정식을 찾아내는 방법 -> 전진 선택법
    전진선택법: 절편만 있는 상수모형으로부터 시작해 중요하다 생각되는 변수를 차례로 추가
    후진제거법: 모든 변수를 포함한 모형에서 출발해 가작 적은 영향을 주는 변수부터 하나씩 제거
    단계선택법: 전진선택법으로 변수를 추가하는데 기존 변수가 영향을 받아 중요도가 약화되면 변수를 다시 제거하는 등 단계별로 추가, 제거 여부를 검토하는 방법
    최적회귀방정식: 모든 후보 모형들에 대해 AIC, BIC를 계산하고 그 값이 최소가 되는 모형 선택

  • 최적 회귀방정식을 추정하는 데 있어, 벌점의 지표 중 하나에 대한 설명.. -> 자료의 수가 많아질수록 부정확해지는 문제를 해결하기 위해 도입된 변수 선택 지표. 또한 다른 벌점들보다 높은 패널티를 갖기 때문에 변수의 개수가 적은 경우에 활용이 권장됨. -> BIC

  • 로지스틱회귀분석은 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계기법. 이 중 로지스틱 회귀모형의 검정방법은? -> 카이제곱 검정

  • 회귀분석에서 다중공선성은 모형의 일부 설명변수가 다른 설명변수와 상관되어 있을 때 발생하는 현상. (안조은거 가틈)
    -> 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만듬
    -> 모형의 일부 예측 변수가 다른 예측 변수와 상관되어 있을 때 발생하는 문제
    -> 높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 따라 달라질 수 있으므로 높은 상관관계가 있는 설명변수는 변환을 한 다음 모형에서 사용해야 함
    -> R에서 다중공선성을 확인하는 함수로 vif가 있으며, 보통 vif값이 10이상이면 다중공선성을 의심함

  • 추정된 다중회귀모형이 통계적으로 유의미한지 확인하는 방법 -> F통계량

  • 회귀분석에서 가장 적합한 회귀모형을 찾기 위한 과정의 설명
    -> 독립변수의 수가 많아지면 모델의 설명력이 증가 but 모형이 복잡해지고 독립변수들 간에 서로 영향을 미치는 다중공선성의 문제가 발생하므로 상대적인 조정이 필요
    -> 회귀식에 대한 검정은 독립변수의 기울기가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설로 놓음
    -> 잔차의 독립성, 등분산성, 정규성을 만족하는 지 확인 해야함
    -> 회귀분석의 가설검정에서 p값이 0.05보다 작은 값이 나와야 통계적으로 유의미한 결과로 받아들일 수 있음

  • 회귀분석에서 결정계수(R2)에 대한 설명
    -> 결정계수는 총 변동 중에서 회귀모형에 의해 설명되는 변동이 차지하는 비율
    -> 회귀모형에서 입력변수 증가 -> 결정계수 증가
    -> 다중 회귀분석에서는 최적 모형의 선정 기준으로 결졍계수 값보단 수정된 결정계수 값을 사용하는 것이 적절
    -> 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소함

  • 최적회귀방정식을 선택하기 위한 방법
    -> 가능한 범위 내에서 적은 수의 설명변수를 포함

  • AIC나 BIC의 값이 가장 작은 모형을 선택하는 방법으로 모든 가능한 조합의 회귀분석을 실시
    -> 전진선택법은 설명변수를 추가했을 때 제곱합의 기준으로 가장 설며을 잘하는 변수를 고려하여 그 변수가 유의하면 추가

  • 단계적 방법은 기존의 모형에서 예측 변수를 추가, 제거를 반복하여 최적의 모형을 찾는 방법이므로 전진선택법과 후진선택법과 동일한 최적의 모형을 가지는 것은 아니다.


통계분석 (기타분석)

  • 양적척도에 대한 상관분석을 수행하기 위해서는 피어슨 상관계수를 사용해야 한다 / 상관분석의 귀무가설은 '두 변수 간 상관관계는 존재하지 않는다' 이다 / 상관분석을 통해 두 변수의 선형관계 여부를 파악할 수 있다 / 서열척도에 대해 상관게수를 구할 때 동일 석차가 존재해도 분석을 수행할 수 있다

  • 다차원 척도법
    -> 데이터를 저차원 공간에 배열하는 시각화 기법 중 하나
    -> STRESS 값이 0인 경우 적합이 매우 잘 된 것
    -> 데이터의 변수는 연속형 변수 또는 서열척도여야 한다
    -> 좌표 평면에 나타냈을 때, x축 y축이 데이터 해석에 도움을 주지 않는다 (아마 그 거리? 뭐 이런거로 해석해야하는듯?)

  • 주성분 분석
    -> 변수 요약 기법 중 하나로 기존 데이터의 선형결합으로 주성분을 생성
    -> 기존 데이터의 분산이 가작 작은 축을 첫번째 주성분으로 하지 않음
    -> 누적 기여율이 70~90%가 되도록 주성분의 개수를 선택
    -> n개의 변수를 n개의 주성분으로 요약할 때 누적 기여율은 100%

  • 주성분 분석
    -> scale. = T는 평균을 1로, center = T는 분산을 1로 조절하기 위함
    -> 첫 번째 주성분은 분산이 가장 큰 새로운 축을 갖음

  • 시계열 분석의 정상성
    -> 모든 시점 t에 대해 일정한 평균을 갖는다
    -> 모든 시점 t에 대해 일정한 분산을 갖는다
    -> 평균이 일정하지 못한 경우 변환을 통해 정상 시계열로 만들 수 없다
    -> 공분산은 특정 시점이 아닌 시차에 의존한다

  • 시계열 분석을 수행하기 앞서 시계열 모형 선택은 중요한 과제 중 하나이다. 특정 시점에서의 시계열 자료의 값은 이전 시점 n개에 의해 결정 지을 수 있는 모델은? -> AR모형

  • 시계열 자료를 설명하기 위한 분해 시계열 요소가 아닌 것은?
    -> 회귀 요인
    분해 시계열 요소는?
    -> 순환 요인, 계절 요인, 불규칙 요인

  • 한 변수를 단조 증가 함수로 변환하여 다른 변수를 나타낼 수 있는 정도를 나타내며 두 변수의 선형 관계의 크기 뿐만 아니라 비선형적인 관계도 나타낼 수 있는 상관계수는? -> 스피어만 상관계수
    스피어만 상관계수는 서열 척도인 변수, 순서형 변수, 비모수적 방법, 비선형 관게'도' 측정 가능

  • 시계열의 요소분해법은 시계열 자료가 몇 가지 변동들의 결합으로 이루어져 있다고 보고 변동요소별로 분해하여 쉽게 분석하기 위한 것이다.
    -> 추세변동은 장기적으로 변해가는 큰 흐름을 나타내는 것으로 자료가 장기적으로 커지거나 작아지는 변화를 나타내는 요소이다
    -> 계절변동은 일정한 주기를 가지고 반복적으로 같은 패턴을 보이는 변화를 나타내는 요소이다
    -> 순환변동은 계절변동과 혼동할 수 있지만, 계절변동으로 설명되지 않는 '장기적'인 변동, 계절과 관련 없는 변동으로 주기변동을 뜻한다
    -> 불규칙변동은 불규칙하게 변동하는 급격한 환경변화, 천재지변 같은 것으로 발생하는 변동을 말한다.

  • 주성분분석은 p개의 변수들을 중요한 m(p)개의 주성분으로 표현하여 전체 변동을 설명하는 방법을 사용한다.
    -> 전체 변이 공헌도 방법은 전체 변이의 70-90% 정도가 되도록 주성분의 수를 결정한다
    -> 평균 교유값 방법은 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 유지하는 방법이다
    -> Scree graph를 이용하는 방법은 고유값의 크기순으로 산점도를 그린 그래프에서 감소하는 추세가 원만해지는 지점에서 1을 뺀 개수를 주성분의 개수로 선택한다
    -> 주성분은 주성분을 구성하는 변수들의 계수 구조를 파악하여 적절하게 해석되어야 하며, 명확하게 정의된 해석 방법이 있는 것은 아니다

  • 시계열 분석을 위해서는 정상성을 만족해야 한다. 따라서 주어진 자료가 정상성을 만족하는 지 판단하는 과정이 필요하다. 자료가 추세를 보이는 경우에는 현 시점의 자료 값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 바꾸어 준다. 이 방법은 무엇인가? -> 차분

  • 주성분분석에서 변수의 중요도 기준이 되는 값은?
    -> 고유값 (고유벡터! 어떤 특징을 갖는 벡터)

  • 시계열 데이터의 분석 절차 순서는?
    1) 시간 그래프 그리기
    2) 추세와 계절성을 제거하기
    3) 잔차를 예측하기
    4) 잔차에 대한 모델 적합하기
    5) 예측된 잔차에 추세와 계절성을 더하여 미래 예측하기

  • 시계열 데이터에 대한 설명
    -> 시계열 데이터의 모델링은 다른 분석모형과 같이 탐색 목적과 예측 목적으로 나눌 수 있다
    -> 짧은 기간 동안의 주기적인 패턴을 계절변동이라 한다
    -> 잡음은 무작위적 변동이고, 일반적으로 원인은 알려져 있지 않다
    -> 시계열 분석의 주목적은 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다

  • 다차원 척도법
    -> 다차원 척도법은 여러 대상들 간의 관계를 개체들 사이의 유사성/비유사성을 상대적 거리로 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하는 분석 방법이다.
    -> 다차원 척도법의 목적은 데이터 속에 잠재한 패턴을 찾기 위해 복잡한 구조를 소수 차원의 공간에 기하학적으로 표현하는 것이다.
    -> 계량적 다차원척도법은 비율척도, 구간척도 데이터를 활용하고, 비계량적 다차원척도법은 순서척도의 데이터를 활용한다.
    -> 스트레스 값이 0.05이하이면 적합 정도가 아주 좋은 것으로 해석하고 반복 분석과정을 중단해도 된다.


정형데이터마이닝 (개요)

  • 대용량 데이터 속에서 숨겨진 지식 또는 새로운 규칙을 추출해 내는 과정 -> 데이터마이닝

  • 지도학습 -> 인공신경망, 의사결정나무, 회귀분석, 로지스틱회귀분석, 사례기반추론
    비지도학습 -> OLAP, 연관성 규칙발견, 군집분석(k-means clustering가 예시 중 하나), SOM(self organizing map -> 차원축소와 군집화를 동시에 수행하는 기법.)

  • 군집분석 예 -> k-means clustering, single linkage method, DBSCAN
    군집분석은 주성분분석과 다름!

  • 비지도학습 예시
    -> 고객의 과거 거래 구매 패턴을 분석하여 고객이 구매하지 않은 상품을 추천
    -> 상품을 구매할 때 그와 유사한 상품을 구매한 고객들의 구매 데이터를 분석하여 쿠폰을 발행

  • 데이터 마이닝의 대표적인 기능 중 이질적인 모집단을 세분화하는 기능 -> 군집분석

  • 데이터 마이닝 단계 중 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계는? -> 데이터 가정! 준비 아님

  • 과대적합
    -> 생성된 모델이 훈련 데이터에 너무 최적화되어 학습하여 테스트 데이터의 작은 변화에 민감하게 반응한다 (안좋게)
    -> 학습데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생
    -> 변수가 너무 많아 모형이 복잡할 때 생김
    -> 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트를 하는 과정을 반복해 과대적합을 방지할 수 있다

  • 로지스틱 회귀: 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법/ 0~1을 반환
    -> 오즈란 이진 분류에서 실패할 확률 대비 성공할 확률을 의미 -> 오즈=p/(1-p). 성공할 확률이 실패할 확률의 몇 배인지를 나타냄
    -> 로지스틱 회귀분석의 종속변수는 범주형이다
    -> x의 회귀계수를 5라 가정하면, x값이 1 증가할 때 성공할 확률은 e^5만큼 증가한다
    -> 성공 횟수가 10이고 실패횟수가 1이면 오즈값은 10 = (10/11)/(1/11)

  • 의사결정나무
    -> 분류분석의 일종으로 여러 개의 분리 기준에 의해 최종 분류 값을 찾는 방법
    -> 지니 지수, 엔트로피 지수 등을 분리 기준의 지표로 활용
    -> 시각화했을 경우 누구나 쉽게 알아볼 수 있다는 장점이 있음
    -> 종속변수가 범주형인 경우에는 지니지수를, 연속형인 경우 이진분리 사용

  • 의사결정나무 수행에서, 너무 많은 분리기준을 보유한 의사결정나무는 일반화의 어려움이 있을 수 있는 과적합 문제가 발생할 수 있다. 이러한 문제를 해결하기 위해 특정 조건에 도달했을 경우 나무의 성자을 멈추도록 하는 규칙이 있다. 그것은 바로 '정지규칙'

  • 지니지수 = 1 - 각 확률의 제곱 값의 합 = 1 - {(3/5)^2 + (2/5)^2} = 12/25

  • 앙상블 분석
    -> 배깅은 원본 데이터의 붓스트랩을 활용하여 여러 개의 모형을 만들고 보팅에 의해 최종 결과를 도출한다
    -> 붓스트랩이란 기존 데이터와 같은 크기만큼 표본을 복원추출하여 만들어낸 새로운 데이터집단이다
    -> 의사결정나무와 랜덤 포레스트는 이상값에 만감하지 않지만, 부스팅은 이상값에 민감하다
    -> 앙상블 분석의 주 목적은 여러 개의 분류기를 제작하여 하나의 분류기에서 오는 낮은 신뢰서을 높이는 것이다
    배깅: 여러개의 부스트랩 자료를 생성한 후 각 자료에 예측 모형을 만든 후 결합. 가지치기를 하지 않고 최대로 성장한 의사결정나무 활용
    부스팅: 배깅과 다른 점은 각 자료에 동일한 가중치를 주는 것이 아닌 분류가 잘못된 데이터에 더 큰 가중을 준다.
    랜덤포레스트: 배깅에 랜던 과정을 추가한 방법

  • 앙상블 분석에서, 한번에 여러 개의 붓스트랩을 만들지 않고 다음 분류기를 제작하기 위한 붓스트랩을 구성할 때 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 새로운 붓스트랩을 구성하여 최종모형을 만드는 방법 -> 부스팅

  • 인공신경망
    -> 다층신경망에서 은닉층의 수와 은닉노드의 수는 많을 수록 좋다는 아님!
    -> 발생한 오차를 줄이기 위해 역전파 알고리즘을 사용하여 가중치를 수정한다
    -> 역전파에 의한 가중치 수정 작업 중 가중치의 절대값이 커져 과소적합(overfitting의 반대. underfitting)이 발생하는 것을 포화문제(기울기 소실? -> 학습 능력 제한 -> 이를 신경망에 포화 상태가 발생했다 함)라 한다
    -> 다수의 은닉층을 보유한 경우 시그모이드 함수를 사용하면 기울기 소실 문제가 발생할 수 있다.

  • x축은 1-특이도 값을 나타내며, y축은 민감도의 값을 나타내어 모형의 이진분류에 대한 성과를 평가하기 위한 그래프이다. 그래프의 아래 면적값이 클수록 (1에 가까울 수록) 모형의 성능이 우수하다고 말할 수 있다
    -> ROC 커브에 대한 설명임

  • 성과 분석

    Accuracy = (1+4)/(1+2+3+4)
    특이도(Specificity) = 4/(2+4)
    정밀도(Precision) = 1/(1+2)
    재현율(Recall) = 1/(1+3)
    F1-score = 2*(precision*recall)/(precision+recall)

  • 의사결정 나무 모형의 학습 방법
    -> 이익도표 또는 검정용 자료에 의한 교차 타당성 등을 이용해 의사결정나무를 평가한다
    -> 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받는다
    -> 각 마디에서의 최적 분리규칙은 분리변수의 선택과 분리기준에 의해 결정된다
    -> 가지치기는 분류오류를 크게할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거하는 작업이다

  • 원 데이터 집합으로부터 크기가 같은 표본을 여러번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법 -> 배깅

  • 앙상블 모형은 여러 모형의 결과를 결합함으로써 단일 모형으로 분석했을 때보다 신뢰성 높은 예측값을 얻을 수 있다.
    앙상블 모형의 특징
    -> 이상값에 대한 대응력이 높아진다
    -> 전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있다
    -> 모형의 투명성이 떨어져 원인 분석에는 적합하지 않다
    -> 각 모형의 상호 연관성이 높을 수록 정확도는 떨어진다

  • 다수 모델의 예측을 관리하고 조합하는 기술을 메타학습이라 한다. 여러 분류기들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법은? -> 앙상블 기법

  • 의사결정나무와 같이 선형성, 정규성, 등분산성 등의 가정을 필요로 하지 않는 모형은? -> 비모수모형

  • 의사결정 나무에서 더 이상 분기가 되지 않고 현재의 마디가 끝마디가 되도록 하는 규칙을 나타내는 용어는? -> 정지규칙

  • 신경망 모형은 자신이 가진 데이터로부터 반복적인 학습과정을 거쳐 패턴을 찾아내고 이를 일반화하는 예측방법이다.
    신경망 모형에 대한 설명
    -> 피드포워드 신경망은 정보가 전방으로 전달되는 것으로 생물학적 신경계에서 나타나는 형태이며 딥러닝에서 가장 핵심적인 구조 개념이다
    -> 은닉층의 뉴런수와와 개수는 신경망 모형에서 자동으로 설정되지 않고 직접 설정해야 한다
    -> 일반적으로 인공신경망은 다층퍼셉트론을 의미한다. 다층 퍼셉트론에서 정보의 흐름은 입력층에서 시작하여 은닉층을 거쳐 출력층으로 진행된다
    -> 역전파 알고리즘은 연결강도를 갱신하기 위해 예측된 결과와 실제값의 차이인 에러의 역전파를 통해 가중치를 구하는데서 시작되었다

  • SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형성화하는 방법이다.


정형데이터마이닝 (군집/연관)

  • 군집분석을 실시하기 위한 여러 거리 측도 중 범주형 데이터 거리를 계산하기 위한 측도는 무엇인가? -> 자카드 거리
    연속형 변수 거리: 유클라디안 거리(흔히 아는 거리), 표준화 거리(표준화하게 되면 척도, 분산의 차이로 인한 왜곡을 피할 수 있다), 마할라노비스 거리(통계적 개념 포함. 변수의 표준화와 상관성을 동시에 고려, 맨하탄 거리, 민코우스키 거리
    범주형 변수 거리: 자카드 유사도(Boolean 속성으로 이루어진 두 객체간의 유사도 측정에 사용), 코사인 유사도(두 단위 백터의 내적을 이용. 내각의 크기로 유사도를 측정)

  • 맨하튼 거리 -> 차이 값들의 합
    체비셰프 거리 -> 차이 값의 최대값

  • 계층적 군집 분석
    -> 범주형 데이터에서도 거리 측정이 가능하므로 분석 기법을 적용할 수 있다
    -> R에서 최장연결법을 수행하기 위해서는 complete를 사용한다
    -> 군집분석의 기본은 가장 가까운 데이터를 우선적으로 묶는 방법이며, 최장연결법은 묶고 난 다음에 군집과 기존 데이터를 어떻게 연결한 것인지 정의
    -> 와드연결법은 군집 내 편차 제곱합이 최소가 되도록 연결하는 방법
    -> 최단연결법: 최단거리를 이용해 군집형성. 고립된 군집을 찾는 데 중점. 사슬모양의 군집이 생길 수 있음
    -> 최장연결법: 최장거리를 이용해 군집형성. 내부 응집성에 중점을 둠
    -> 중심연결법: 중심간의 거리를 이용해 군집형성
    -> 평균연결법: 계산량이 많지만 모든 데이터를 포함하는 하나의 군집 형성
    -> 와드연결법: 군집내의 오차제곱합에 기초하여 군집 형성

  • K 평균 군집
    -> 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
    -> 군집의 seed가 이동함에 따라 데이터(군집)이 할당되었다 풀리게 됨
    -> 제곱합 그래프를 보고 초기 K값 결정에 도움받을 수 있다
    -> seed의 변경이 없거나 n번의 반복이 끝날때까지 군집작업을 반복 수행한다

  • K 평균 군집
    -> 탐욕적 알고리즘으로 매 순간순간 최적의 군집을 찾기 위해 반복적으로 수행해서 안정적. 초기 seed 값을 결정하기 어려워 최적의 군집을 보장하지는 못함. 비지도 학습
    -> 이상값에 민감하기 때문에 새로운 seed를 결정할 때 평균 대신 중앙값을 사용하기도
    -> 목적이 없이 분석 수행이 가능하나 결과의 해석이 어렵다

  • EM 알고리즘의 E 단계에서, 임의로 설정된 파라미터 값을 활용하여 주어진 확률분포로부터 표본이 추출된 기댓값을 게산한다

  • 자기 조직화 지도 (SOM)
    -> 완전연결의 형태로 입력층의 각 데이터를 경쟁층의 뉴련에 모두 연결된다
    -> 경쟁층에 한번 표시된 데이터는 iteration이 반복되는 동안 다른 노드로 이동할 수 있다!
    -> 은닉층이 없으며 순전파 방식만 사용하기 때문에 알고리즘 수행 속도가 매우 빠르다
    -> 초기 학습률 및 초기 가중치의 결정이 결과에 큰 영향을 끼친다

  • k-means clustering은 비계층적 군집방법! -> 이상값에 민감하여 군집 경계의 설정이 어렵다는 단점이 있음. 이를 극복하기 위해 등장한 비계층적 군집 방법은? -> k-medoids clustering

  • 계층적 군집방법은 두 개체 간의 거리에 기반하여 군집을 형성해 나가므로 거리에 대한 정의가 필요함. 이 때 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리는? -> 마할라노비스 거리

  • 계층적 군집분석 수행 시 두 군집을 병합하는 방법 가운데 병합된 군집의 오차제곱합이 병항 이전 군집의 오차제곱합의 합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법은? -> 와드연결법(군집 내 오차제곱이 최소가 되도록 연결)

  • 실루엣: 군집분석의 품질을 정량적으로 평가하는 대표적인 지표. 군집 내 데이터간 거리가 짧을 수록 군집 간 거리가 멀수록 값이 커짐. 완벽한 분리일 경우 1의 값.

  • 연관분석
    -> 품목 수가 증가할 수록 계산량은 기하급수적으로 증가
    -> 최소 지지도 이상의 품목에 대해 분석을 진행하는 apriori 알고리즘이 있다
    -> 품목 세분화가 많이 된다 해서 더 좋은 결과를 얻는건 아님
    -> 결과의 해석이 IF~ THEN~ 으로 매우 쉽고 단순하다

  • 연관 분석에 시간 개념을 추가한 것으로 'A를 구매한 고객은 추후에 B를 구매할 것이다'와 같은 두 품목과 시간에 대한 규칙을 찾는 분석 기법. 어떤 고객이 무엇을 구매했는 지 과거와 현재를 비교하기 위해 고객의 정보가 필요 -> 순차패턴

  • 연관분석 측도
    두 품목에 대한 서로의 조건부 확률로 A가 구매될 때 B가 구매될 확률 또는 B가 구매될 때 A가 구매될 확률로 표현이 가능 -> 신뢰도
    A->B일 때, (커피사는 사람은 A, 탄산음로도 산다 B)
    지지도: P(A교B)
    신뢰도: P(A교B)/P(A)
    향상도: P(A교B)/(P(A)*P(B))/향상도가 1보다 크면 해당 규칙이 결과를 예측하는데 있어 우수하다는 것을 의미

profile
💼 Software Engineer @ LG Electronics | 🎓 SungKyunKwan Univ. CSE

0개의 댓글