[ADsP 합격 노트] 3-5. 정형 데이터 마이닝(2)

wandajeong·2022년 12월 13일
0

ADsP

목록 보기
11/11

인공신경망 분석

  • 뉴런의 활성화 함수
    • Relu 함수 R(x)=max(0,x)R(x) = max(0, x)
    • softmax 함수 : 표준화지수함수로도 불리며, 출력값이 여러개로 주어지고 목표치가 다범주인 경우 각 범주에 속할 사후확률을 제공하는 함수 yi=exp(zj)i=1Lexp(zj),j=1,,Ly_i = \frac{exp(z_j)}{\sum_{i=1}^{L} exp(z_j)}, j=1, …, L
  • 가중치의 초기값과 다중 최소값 문제
    • 역전파 알고리즘은 초기값에 따라 결과가 많이 달라지므로 초기값의 선택은 매우 중요
    • 가중치가 0이면 시그모이드 함수는 선형이 되고 신경망 모형은 근사적으로 선형모형이 됨
    • 초기값이 0이면 반복하여도 값이 전혀 변하지 않고, 너무 크면 좋지 않은 해를 주는 문제점을 내포하고 있어 주의 필요
  • 학습모드
    • 온라인 학습 모드
      • 각 관측값을 순차적으로 하나씩 신경망에 투입하여 가중치 추정값이 매번 바뀜
      • 국소최솟값에서 벗어나기가 더 쉽다
    • 확률적 학습 모드 : 온라인 학습모드와 같으나 신경망에 투입되는 관측값의 순서가 랜덤함
    • 배치 학습 모드 : 전체 훈련자료를 동시에 신경망에 투입

군집분석

  • 거리 1) 연속형 변수의 경우
    • 유클리디안 거리 : 통계적 개념 없음. 변수들의 산포 정도가 전혀 감안되어 있지 않음

    • 표준화 거리

      • 해당 변수의 표준편차로 척도 변환한 후 유클리드안 거리를 계산하는 방법.
      • 표준화하게 되면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있다.
    • 마할라노비스 거리

      • 통계적 개념 포함. 변수들의 산포를 고려하여 이를 표준화한 거리
      • 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리
      • 그룹에 대한 사전 지식 없이는 표본공분산S를 계산할 수 없으므로 사용하기 곤란
    • 체비셰프(Chebychev) 거리 : d(x,y)=maxixiyid(x, y) = max_i|x_i-y_i|

    • 맨하탄 거리 : d(x,y)=i=1pxiyid(x, y) = \sum_{i=1}^{p}|x_i-y_i|

    • 캔버라 거리 : d(x,y)=i=1pxiyi(xi+yi)d(x, y) = \sum_{i=1}^{p}\frac{|x_i-y_i|}{(x_i+y_i)}

    • 민코우스키 거리: 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식
      - L1 거리 (맨하탄), L2 거리(유클리디안)

      2) 범주형 변수의 경우

    • 자카드 거리 : boolean 속성으로 이루어진 두 객체 간의 유사도 측정

      1J(A,B)=ABABAB1-J(A,B)=\frac{|A\bigcup B|-|A\bigcap B|}{|A\bigcup B|}

      • 자카드 계수 J(A,B)=ABABJ(A,B)=\frac{|A\bigcap B|}{|A\bigcup B|}
    • 코사인 거리

      dcos(A,B)=1ABA2B2d_{cos}(A,B)=1-\frac{A\cdot B}{\|A\|_2\cdot \|B\|_2}

      • 코사인유사도 ABA2B2\frac{A\cdot B}{\|A\|_2\cdot \|B\|_2}
  • 계층적 군집분석
    • 합병형 방법(agglomerative:bottom-up)과 분리형 방법(Divisive: top-down)
    • 최단 연결법: nnn*n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성(계산량이 적다?)
    • 최장 연결법
    • 평균 연결법
    • 와드(ward) 연결법 : 군집 내 편자들의 제곱합을 고려한 방법
  • 비계층적 군집분석

    • K-평균 군집분석 과정
      • 원하는 군집의 개수와 초기 값(seed)들을 정해 seed 중심으로 군집 형성
      • 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
      • 각 군집의 seed값을 다시 계산
      • 모든 개체가 군집으로 할당될 때까지 위 과정들을 반복
    • K-평균 군집분석 특징
      • 연속형 변수에 활용 가능
      • 초기 중심으로부터 오차 제곱합을 최소화하는 방향으로 군집이 형성되는 탐욕적(greedy) 알고리즘으로 안정된 군집은 보장하나 최적이라는 보장은 없다
      • 볼록한 형태가 아닌(non-convex) 군집이(e.g. U형태의 군집) 존재할 경우에는 성능이 떨어진다
        → 이상값에 민감하여 군집 경계의 설정이 어렵다. 이러한 단점을 극복하기 위해 등장한 비계층적 군집 방법은 PAM(Partioning Around Medoids)
  • 혼합 분포 군집(mixture distribution clustering)

    • EM(Expectation-Maximization) 알고리즘의 진행 과정
    • 혼합 분포 군집 모형의 특징
      • K-평균군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행한다
      • 데이터가 커지면 수렴에 시간이 걸릴 수 있다
      • 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려울 수 있다
      • K-평균군집과 같이 이상치 자료에 민감하므로 사전에 조치가 필요하다
  • SOM(Self Organizing Map)

    • 코호넨 맵(Kohonen Map)이라고도 알려짐

    • SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화. 입력변수의 위치 관계를 그대로 보존한다는 특징이 있음

    • 구성

      1) 입력층

      • 입력 변수의 개수와 동일하게 뉴런 수가 존재

      2) 경쟁층(2차원 격자로 구성된 층)

      • 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
      • 경쟁학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도(connection weight)를 반복적으로 재조정하여 학습한다. 이 과정을 거치면서 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다.
      • 입력 층의 표본 벡터에 가장 가까운 프로토타입 벡터(BMU, Best-Matching-Unit)를 선택해, 코호넨의 승자 독점의 학습 규칙에 따라 위상학적 이웃에 대한 연결 강도를 조정
      • 승자 독식 구조로 인해 경쟁층에는 승자 뉴런만이 나타나며, 승자와 유사한 연결 강도를 갖는 입력 패턴이 동일한 경쟁 뉴런으로 배열
    • 특징

      • 고차원 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉽다
      • 패턴 발견, 이미지 분석 등에서 뛰어난 성능
      • 역전파 알고리즘이 아닌 단 하나의 전방 패스(feed-forwad flow)를 사용함으로써 속도가 매우 빠르다. 실시간 학습처리 가능
    • SOM과 신경망 모형의 차이점

      구분신경망 모형SOM
      학습 방법오차역전파법경쟁학습방법
      구성입력층, 은닉층, 출력층입력층, 2차원 격자 형태의 경쟁층
      기계 학습 방법의 분류지도 학습비지도 학습

연관분석

  • 연관성 분석은 장바구니분석 또는 서열분석이라고 불림
  • 연관규칙의 측도
    • 지지도(support) : P(AB)=AB전체P(A\bigcap B)=\frac{A\bigcap B}{전체}
    • 신뢰도(confidence) : 지지도P(A)\frac{지지도}{P(A)}
    • 향상도(Lift) : 신뢰도P(B)\frac{신뢰도}{P(B)}
      • 연관규칙 A→B는 품목A와 품목B의 구매가 서로 관련이 없는 경우에 향상도가 1이 된다
  • 연관규칙의 절차 ① 최소 지지도 결정 → ② 품목 중 최소 지지도를 넘는 품목 분류 → ③ 2가지 품목 집합 생성 → ④ 반복적으로 수행해 빈발품목 집합을 찾음
  • 연관성 규칙의 장단점

    • 장점
      • 비목적성 분석기법(목적변수 없음)
      • 간단한 자료 구조, 계산 간단
    • 단점
      • 품목 수 증가하면 계산량 기하급수적으로 늘어남
      • 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미 없는 분석이 될 수 있다
      • 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것, 규칙 발견시 제외하기 쉽다
  • 순차 패턴(Sequence Analysis)

    • 연관성 분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아냄
    • 연관성 분석 데이터 + 구매시점 정보 포함
  • 최근 연관성분석 동향

    품목 수 n개, 품목 부분집합의 개수 = 2n12^n-1개,
    가능한 모든 연관규칙의 개수 = 3n2n+1+13^n-2^{n+1}+1

    • Apriori 알고리즘
      • 최소 지지도 이상의 빈발항목집합(frequent item set, 최소 지지도보다 큰 지지도 값을 갖는 품목의 집합)을 찾은 후 그것들에 대해서만 연관규칙 계산
      • 아이템 수 많아지면 여전히 계산 복잡도 증가
      • inspect() : 생성된 연관 규칙을 보기 위해 사용되는 함수
    • FP-Growth 알고리즘
      • 후보 빈발항목집합을 생성하지 않고, FP-Tree(Frequent Pattern Tree)를 만든 후 분할정복 방식을 통해 더 빠르게 빈발항목집합을 추출할 수 있는 방법
      • Apriori 알고리즘의 약점을 보완하기 위해 고안된 것으로 데이터베이스를 스캔하는 횟수가 적고 빠른 속도로 분석 가능
profile
ML/DL swimmer

0개의 댓글