정형 데이터마이닝 기법

매일 공부(ML)·2022년 2월 21일
0

정형 데이터 마이닝 기법

연계관계 분석

*정의

상품 혹은 서비스 간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용될 수 있는 기법으로 동시 구매될 가능성이 큰 상품들을 찾아내는 기법으로, 시장바구니분석과 관련된 문제에 많이 적용되어 왔습니다.

*기본

측정의 기본은 얼마나 자주 구매되었는가 하는 빈도를 기본으로 하고 있고,연관 정도를 정량화하기 위해서는 지지도, 신뢰도, 향상도를 기준으로 합니다.

*기본 개념

사건 또는 품목간에 일어나는 연관성을 규명하려는 것이 연관성 규칙입니다.
한마디로, 연관성 규칙은 두 항목간 그룹 사이에 강한 연관이 존재하는지에 대한 기술을 말합니다.

예를 들어, “a라는 어떠한 사건이 일어나면 b라는 다른 사건이 일어난다"와 같이 표현할 수 있습니다.

*특징

데이터마이닝을 이용해서 연관성 규칙을 발견하는 것은 대량의 데이터로부터 품목 간의 어떠한 종속관계가 존재하는지를 찾아내는 작업으로 연관성 규칙을 통해 요소간의 연관성 패턴을 분석할 수 있습니다.

이때 연관성 규칙은 비목적성 기법으로 목적 변수 없이 규칙 관계를 설명할 수 있는 특징을 가집니다.

두번째 특징으로 연관성 규칙은 상품 또는 서비스간의 관계를 살펴봄으로써, 그들 간의 유용한 관계가 존재하는지 알아보고자 할 때 적합한 방법이라고 할 수 있습니다.

세번째 특징으로 연관성 규칙은 구체적인 행위를 언급하여 규칙을 도출하기 때문에 이해하기가 쉽고 명쾌한 특성을 가지고 있기에 실질적인 정보를 도출할 수 있는 장점을 가지고 있습니다.

마지막으로 연관성 규칙은 동시에 구매될 확률이 높은 상품 간의 관계를 찾아내기 때문에 장바구니 분석에서 많이 사용되고 있습니다.

이러한 연관성 규칙은 데이터들의 빈도수와 동시 발생 확률을 이용해서 한 항목들의 그룹과 다른 항목들의 그룹 사이에 강한 연관성이 있음을 밝혀주는 기술입니다.

연관 규칙:(Item set X) -> (Item set Y)
*(if X then Y: 만일 X가 일어난다면 Y가 일어난다)

*기준

지지도(Support)

지지도는 전체 거래 중에서 어떠한 항목과 다른 항목 사이에 동시에 포함하는 거래의 빈도가 어느 정도인가를 나타내는 것으로 지지도를 통해 전체적인 구매 의도에 대한 경향을 파악할 수 있구요. 다음과 같이 확률로 나타낼 수 있습니다.

Support(X) 또는 Support(X, Y)로 표현 할 수 있습니다.
다음 식에서, 분자의 n(X∩Y)는 X라는 상품과 Y라는 상품을 동시에 구매한 빈도를 나타내며
분모의 N은 전체의 거래횟수를 말합니다.


신뢰도(Confidence)

X→Y로 표현되는 연관규칙에서의 신뢰도는 X가 포함된 트랜잭션 중에서 X와 Y가 동시에 포함된 트랜잭션의 비율로 정의되고, 연관성의 정도를 파악할 수 있고, 이는 다음의 조건부 확률로 나타낼 수 있습니다.

이는 Support(X, Y)/Support(X)을 의미하며, Confidence(X⇒Y)로 표현할 수 있습니다.


향상도(lift)

X상품을 구매한 경우, 그 거래가 다른 Y상품을 포함하는 경우와 Y상품이 X와 상관없이 단독으로 구매된 경우의 비율을 나타냅니다.

향상도는 Support(X, Y)/[Support(X)x(Support(Y)]로 표현할 수 있다.

P(Y)는 전체 거래 중 Y 상품의 거래가 일어나는 확률을 말하고 향상도의 값은 상품 X와 Y간의 Lift값이 1이면 상호 독립적이라고 할 수 있습니다.

Lift 값이 1보다 크면 양의 상관관계, 즉 보완재 관계이고, Lift 값이 1보다 작으면 음의 상관관계, 즉 대체재 관계를 나타내는 것입니다.


의사결정나무 기법

의사결정나무는 데이터마이닝의 주요 기법 중 하나로써 분류 및 예측에 주로 사용이 되기에 목표변수에 대한 의사결정 규칙들을 나무구조로 그래프화하여 분류와 예측을 수행하는 기법으로 각종 데이터로부터 규칙을 도출하는데 매우 유용하게 활용되고 있는 방법입니다.

이러한 의사결정나무는 다른 통계 기반 기법과 비교하여 분석결과의 해석이 쉽고, 어떠한 변수들이 분류에 중요한 영향을 미치는지 설명이 가능하고, 변수들 간의 상호작용에 대한 해석이 용이합니다.

또한, 모형 구축 시간이 길지 않다는 등의 장점 때문에 의사결정나무는 고객분류, 기업의 부도 예측, 주가 예측, 환율 예측, 경제 전망 등 다양한 분야에서 활용되고 있습니다.


*장점

첫째, 주요변수의 선정이 용이하다는 것인데요. 이는 중요한 변수만 선별하여 의사결정나무를 구성하기 때문입니다.

둘째로 교호효과의 해석이 가능하다는 장점이 있습니다. 즉, 두 개 이상의 변수가 결합해서 목표변수에 어떻게 영향을 주는지 쉽게 알 수 있는 장점이 있습니다.

셋째, 비모수형 모형이라는 것입니다. 선형성, 정규성, 등분산성 등의 가정이 필요 없는 장점이 있습니다.

네 번째 장점은,해석이 용이하다는 것입니다. 모형의 이해가 쉽고, 새로운 자료의 모형에 적합하며, 어떤 입력변수가 목표변수를 설명하기에 좋은지 파악할 수 있습니다.

마지막으로 지식의 추출이 가능하다는 것인데요. 의사결정나무를 룰로 자동변화가 가능하고, 이 룰은 다양한 활용이 가능하다는 장점이 있습니다.


*단점

첫째, 연속형 변수를 비연속적 값으로 취급하기 때문에 분리의 경계점 근방에서 예측 오류가 클 가능성이 있다는 단점이 있습니다.

둘째, 선형성 또는 주 효과의 결여로 선형모형이나 주 효과 모형에서와 같은 결과를 얻을 수 없다는 한계점이 있습니다.

셋째, 비안정성이므로 분석용 자료에만 의존하기 때문에 새로운 자료의 예측에서는 불안정할 가능성이 높습니다.

넷재, 의사결정나무 알고리즘이 이진분리를 이용하기 때문에 분리 가지의 수가 너무 많고 나무형성 시 컴퓨팅 비용이 많이 든다는 단점도 있습니다.


*분석단계

1단계는 의사결정나무를 형성하는 단계, 분석의 목적과 자료 구조에 따라서 적절한 분리 기준과 정지규칙을 지정해서 의사결정나무를 형성합니다

2단계는 가지치기, 분류 오류를 크게 할 위험이 높거나 부적절한 추론 규칙을 가지고 있는 가지를 제거합니다.

3단계는 타당성 평가, 이익도표나 위험도표 또는 검증용 자료에 의한 교차 타당성 등을 이용해서 의사결정나무를 평가합니다.

마지막으로 해석 및 예측으로, 의사결정나무를 해석하고 예측 모형을 설정합니다.

인공신경망 기법

인공신경망은 간단한 계산 능력을 가진 처리 단위, 뉴런 또는 노드들이 서로 복잡하게 연결된 컴퓨터 시스템이구요. 외부에서 주어진 입력에 대하여 반응을 할 수 있습니다.

*신경망 모형

보시는 바와 같이 다계층 퍼셉트론 모형으로서, 입력층에서 은닉층, 은닉층에서 출력층으로 각 뉴런이 서로 연결되어 있는 것이 특징입니다.

인간의 뇌처럼 다양한 뉴런이 서로 연결된 구조를 이용해서 의사결정이 이루어지고 있는 구조를 이용한 것이 인공신경망입니다

인공신경망은 자료의 관련성을 나타내 줄 수 있는 기법으로서, 뇌의 신경 시스템을 응용해서 예측을 최대화하기 위한 조직화를 찾기 위해 반복적으로 학습하는 원리입니다.

*특징

  • 복잡하고 비선형적이며 관계성을 갖는 다변량 분석 가능

  • 회귀분석과 같은 선형기법과 비교하여 비선형기법으로서의 예측력이 뛰어남

  • 자료에 대한 통계적 분석없이 결정 수행

  • 통계적 기본 가정이 적고 유연하여 다양하게 활용

  • 데이터 사이즈가 작을 경우, 불완전 데이터, 노이즈가 많은 경우 다른 기법보다 우수하다고 평가


*단점

  • 모델이 제시하는 결과에 대해서 왜 그러한 결과가 나오는지에대한 원인을 명쾌하게 설명 불가

  • 모델 학습에 시간이 과도라게 듦

  • 전체적인 관점에서의 최적해가 아닌 지역 내 최정해가 선택될 수 있음

  • 과적합화가 될 수 있음


사례기반추론

사례기반추론이란, 과거에 있었던 사례들의 결과를 바탕으로 새로운 사례의 결과를 예측하는 기법으로
과거에 발생한 문제는 미래에 다시 비슷한 형태의 문제로 발생할 가능성이 높고, 새로운 문제를 해결할 수 있는 정답이 과거의 문제를 해결했던 정답과 유사할 것이라는 것이 이 기법의 가정입니다

사례기반추론은 과거 사례들을 저장해둔 사례기반으로부터 해결하고자 하는 새로운 사례와 가장 유사한 사례를 검색한 후에, 유사사례의 해결책을 바탕으로 당면한 문제의 해결책을 제안하는 과정으로 진행됩니다.


*단계

검색단계에서는 대상문제가 주어지면, 사례 데이터베이스에서 그것을 풀기에 적절한 사례들을 검색합니다. 하나의 사례는 문제와 그 해결 방법, 그리고 그 해결방법이 어떻게 유도되었는지에 대한 설명 등으로 구성됩니다.

둘째, 재사용입니다. 이전의 사례로부터 대상 문제의 해결 방법을 연결하는 것으로 새로운 상황에 맞추기 위해 필요한 만큼 해결 방법을 적응시키는 것을 포함합니다.

셋째는, 수정입니다. 이전의 해결 방법을 대상의 상황에 연결시킨 후에, 그 새로운 해결 방법을 실세계에서 적용하고, 필요하다면 수정하는 것입니다.

마지막으로 유지입니다. 해법이 성공적으로 대상 문제에 적용된 후에, 그러한 새로운 경험이 사례 데이터베이스에 새로운 사례로 저장됩니다.


*장점

첫째로는, 사례기반추론의 문제 해결방식은 인간의 문제 해결방식과 유사하기 때문에 그 결과를 이해하기 쉽다는 것입니다.

둘째로는, 새로운 사례를 단순히 저장하는 것만으로도 추가적인 작업 없이 학습이 진행된다는 것입니다.

셋째로는, 사례기반추론 모델은 그 구조가 간단하고 이해가 용이하다는 것입니다.

넷째로는, 수치형 변수와 범주형 변수 모두가 사용 가능하다는 것입니다.

마지막으로 복잡한 문제를 비교적 적은 정보로 의사결정 문제 해결이 가능하다는 것입니다.


*단점

첫째로는, 전통적인 사례기반추론의 경우, 타 인공지능 기법이나 데이터마이닝 기법에 비해 정확도가 상대적으로 크게 떨어진다는 것입니다.

둘째, 사례를 저장하기 위한 공간이 많이 필요하다는 것입니다

셋째, 일반화를 위한 학습 과정과 해결이 동시에 일어나기 때문에 많은 시간이 소요된다는 것입니다.

그리고 마지막으로, 사례를 설명하고 있는 속성이 적절하지 못한 경우 성능이 크게 저하된다는 단점이 있습니다.

군집분석기법

군집분석기법은 전체 데이터를 군집을 통해 구분하는 것으로 다양한 특징을 가진 관찰 대상으로부터 동일 집단으로 분류하는데 사용하는 기법입니다.

이는 유사한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 찾아내는 분류 방법인데요.
구분하려고 하는 각 군집에 대한 아무런 사전 지식이 없는 상태에서 분류하는 것이기 때문에 무감독 학습에 해당된다고 할 수 있습니다.

한마디로 개체들에 대한 사전 지식 없이 유사도에 근거해서 군집들을 구분하는 원리를 가집니다.
개체 공간에 주어진 유한 개의 개체들이 서로 가깝게 모여 무리를 이루고 있는 개체 집합을 군집(cluster)이라 하구요.


*절차

I)연구문제 분석 대상 및 변수 선정

II)유사성 측정방법의 결정(거리 척도)

III)군집화 방법의 결정: 계층적 군집화/비계층적 군집화

IV)군집의 해석 및 특징 파악


유사성 측정 방법의 결정 단계에서 군집분석을 위해 일반적으로 많이 사용되는 방법으로 거리측정 값에 의해 대상 간의 유사성을 판단하는 단계입니다.

군집분석에서는 관측 값들이 서로 얼마나 유사한지 또는 유사하지 않은지를 측정할 수 있는 척도가 필요하기에 군집분석에서는 보통 유사성보다는 비유사성을 기준으로 하는 거리를 사용하는데요. 대상들간의 거리가 근접해 있다는 것은 유사성이 높다는 것을 의미합니다.


*유사성 측정 방식

  • 유클리디안 거리: 두 지점간의 거리 계산시, 직삼각형의 원리를 이용한 것으로 두 지점간의 최단 거리를 의미

  • 제곱 유클리디안 거리: 유클리디안 거리를 제곱한 것을 의미

  • 도시블럭 거리: A에서 B로 직선거리가 아닌 평면 상에서 정해진 길을 따라서 이동했을 때의 거리를 의미

  • 민코스키 거리: 비유성을 나타내는 거리의 일반형으로 조사목적에 따라 함수의 지수를 조정하여 다양한 방식의 거리를 구함


*계층적 군집 분석

단일결합법은 두 대상들 간의 거리가 가장 짧거나 유사성이 가장 큰 것들을 결합하는 방식이고,
두 개의 개별대상들은 최단거리에 의해 분리되고 이들은 첫 번째 군집에 포함이 됩니다.

완전결합법은 단일결합법과 유사하기는 하나, 두 군집들 간의 거리는 가장 먼 대상들 간의 거리에 의해 군집화합니다.

가장 가까운 거리의 대상을 군집화 시킨다는 점은 단일결합법과 동일하고, 형성된 군집과 다른 대상간의 거리를 계산할 때 최장거리를 기준으로 하고 있는 것이 특징입니다.

평균결합법은 단일결합법과 완전결합법에 의해 군집화가 시작이 되구요. 하나의 군집에서의 응답자와 또 다른 군집에서의 응답자 간의 평균거리를 기준으로 군집화하는 것을 의미합니다.


*비계층적 군집분석

비계층적 군집분석에는 K-평균법이 있습니다. 여기서 K는 군집의 수를 의미합니다.
K-평균법은 한 군집씨앗이 선택되고 사전에 명시된 한정거리 이내에 있는 대상들이 그 군집씨앗을 중심으로 군집화하는 방법입니다.

또 다른 군집씨앗이 정해지고 같은 방식으로 군집화가 진행되는데요. 여기서 어떤 대상이 사전에 한 군집에 속해졌더라도 새로운 군집씨앗에 보다 가까우면 이 대상은 새로운 군집에 할당합니다.

같은 방식으로 사전에 정해진 K개의 군집씨앗을 중심으로 K개의 군집이 도출될 때까지 계속 진행되고, 군집화가 진행됨에 따라 각 군집의 중심점은 달라집니다.

profile
성장을 도울 아카이빙 블로그

0개의 댓글