데이터마이닝의 개념

매일 공부(ML)·2022년 2월 19일
0

데이터마이닝

데이터마이닝은 한마디로 “대량의 데이터 집합으로부터 유용한 정보를 추출하는 것”으로 정의으로 구체적으로 말하자면,데이터마이닝이라는 것은 의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나, 반 자동화된 도구를 이용해서 대량의 데이터를 탐색하고 분석하는 과정을 말합니다.

데이터마이닝은 데이터베이스, 데이터 웨어하우스, 데이터마트와 같은 방대한 양의 데이터에서 데이터에 함축되어 있으나 이전에는 발견되지 않은 잠재적으로 유용한 정보를 새롭게 추출해서 과거 행위의 분석을 기초로 미래를 예측되는 원리로 구동된다고 볼 수 있습니다.

데이터마이닝의 특징

대용량의 관측 가능한 자료를 다루기

실험자료

가설검정 등의 구체적인 문제에 답하기 위해 여러 요인들이 통제되고 조작된 가운데 만들어 집니다.


관측자료

시간의 흐름에 따라서 비계획적으로 축적되는 자료로 자료분석을 염두에 두고 수집되지 않는 것이 일반적입니다.


컴퓨터 중심적 기법

데이터마이닝은 컴퓨터의 강력한 처리속도와 능력을 활용하여 기존의 기법에서 해결 불가한 경우 타파


경험적 방법에 근거

많은 데이터 마이닝 기법들은 이론적 원리에 기초하여 개발되었다기 보다는 경험에 기초하여 개발되었다고 볼 수 있습니다.


일반화에 초점

일반화는 예측모형이 새로운 자료에 얼마나 잘 적용되도록 하는 것인가를 의미하는 것으로데이터마이닝 기법의 비정형성을 어느 정도 해결 또는 보완해 주는데 도움을 주고 있습니다.

이러한 데이터마이닝의 기법들은 매우 다양한 분야에서 개발되었고, 통계학, 컴퓨터 과학, 경영 정보학 등 여러 학문분야에서 연구되어 오고 있는데요.

데이터마이닝의 융합 학문 분야

통계학 분야

대부분의 데이터마이닝 기법들은 통계학에서 연구되고 개발되어 온 것입니다.

예를 들어, 데이터마이닝의 모형구축에서 가장 많이 사용되는 기법 중에 하나인 판별분석은 1936년에
시작된 다변량 통계분석의 한 기법이라고 할 수 있습니다.


패턴인식

패턴인식은 공학에서 출발하였으며, 문자인식 또는 이미지 분류와 깊은 관련을 가지고 있고 이러한 패턴인식은 데이터베이스에서 유용한 패턴을 찾아내는 다양한 기법들을 제공하고 있습니다.


뉴로컴퓨팅

신경망등과 관련된 다양한 학문적 배경을 가진 분야입니다.


기계학습

인공지능의 한 분야로 자동적인 학습기법을 설계하고 구현하는 분야입니다.


데이터베이스 마케팅 분야

데이터마이닝이 가장 성공적으로 적용되고 있는 분야로 목표마케팅, 고객세분화, 고객성향변동분야, 교차판매, 장바구니 분석 등에서 주로 이용되고 있습니다.

또한 이러한 데이터베이스 마케팅은 소매, 통신판매, 금융서비스, 건강, 보험, 통신 등 다양한 분야에서 활용되고 있습니다.


신용평가 분야

신용평가는 특정인의 신용거래 대출한도를 결정하는 것이 주 업무로서, 목적은 불량채권과 대손을 추정하여 이를 최소화하기 위한 것입니다.

신용거래 확대를 위한 의사결정 적용분야로는 신용카드, 주택할부금융, 소비자 대출, 상업 대출 등을 들 수 있습니다.


품질관리 분야

품질관리의 목적은 불량품을 찾고, 그 원인을 밝혀서 궁극적으로 이를 예방하는 것으로 병원과 의료보험 조합 등에서는 병원에서 발생하는 사망, 불필요한 장기입원 및 의료비의 과다청구에 초점을 맞추고 있습니다.

제조업체의 경우에는 제품보증청구를 유발시키는 불량품 감소를 통한 이윤증가에 중점을 두고 있는 있습니다.


부정행위 적발분야

부정행위 적발의 목적은 고도의 사기행위를 발견할 수 있는 패턴을 알아내는 것으로 은행에서는 발견된 패턴을 이용해서 신용카드 거래 사기 및 불량수표를 적발할 수 있고, 통신회사에서는 전화카드 거래 사기를 방지할 수 있습니다.


이미지 분석 분야

이미지분석은 디지털데이터로부터 패턴을 추출하는 기법으로 천문학, 문자인식, 의료진단, 방위산업 등 다양한 분야에서 활용되고 있습니다.

이미지분석의 예로는 카메라로 촬영한 사진이나 문자를 디지털 신호로 바꾸어 적당한 데이터의 형태로 변환한 후 그것을 판독하는 것입니다.


실제 적용 사례

소매업에 적용된 사례

미국의 한 할인점 회사는 매장 내의 상품들과 고객들의 구매패턴의 연관성을 발견하기 위해서 데이터마이닝을 수행하였는데, 연관성 규칙발견 알고리즘을 이용한 장바구니 분석이 사용되었습니다.

이를 통해 발견된 결과는 상품진열 등에 반영해서 고객의 추가구매를 유도하여 매출을 증가시켰습니다.


신용카드 회사

국내의 한 신용카드 회사는 카드사용의 부정행위를 적발하고 예방하기 위해 데이터마이닝을 적용하였는데
사용된 기법으로는 통계적 기법, 의사결정나무 분석기법 그리고 신경망 분석기법 등을 이용하여 카드사용 패턴을 분석하였습니다.

과거에 정상적으로 거래된 데이터와 도용사고 경험이 있는 데이터를 기반으로 각각의 패턴을 분석하여 모형화 하였는데요, 이렇게 구축된 모형을 카드 승인 시에 적용해서, 만일 부정행위로 의심이 되면 승인을 거부함으로써 불법적인 카드사용을 적발하거나 사전 예방할 수 있었습니다.


의료분야 적용 사례

미 중부에 위치한 한 대학병원에서는 종양의 악성과 양성 판단에 의한 암 진단의 정확성을 높이기 위해서, 판별 및 분류 분석기법을 수행한 것입니다.

이는 과거의 환자들의 종양검사 결과를 근거로, 종양의 악성과 양성 분류모형을 만든 후에, 새환자로부터 채취한 종양분류 시에 적용하여 각종 종양들에 대한 구분력을 향상시켰고 더욱 정확한 암진단과 치료에 이용되고 있습니다.


제조업 적용사례

미국의 한 반도체 제조회사에서는 반도체 제조과정 중에 발생하는 불량품의 자동발견을 위해서 데이터마이닝 기법을 사용하였습니다.

이를 위해 연관성 규칙발견과 군집분석 알고리즘을 이용해서 제조공정의 현상을 분석하였는데요,
정상제품만으로 정상적인 제품의 군집모양, 크기 등을 결정한 후 만일 어떤 제품이 이 정상제품 군집의 범위 밖에 위치한다면 불량품으로 규정하는 것입니다.


통신회사 적용 사례입니다.

미국의 한 장거리 전화서비스 회사는 매년 전체 고객의 23%를 잃고 있었고, 또, 고객을 새로 유치하는데 1인당 삼백오십 달러의 비용이 지출되었습니다.

이에 고객의 이탈방지 및 감소를 위해서 고객의 이탈가능성을 예측할 수 있는 모형을 개발하였습니다.
이때 고객성형변동관리와 군집분석을 이용해서 이탈의 원인을 파악하였습니다.

또한 이익분석을 통해 이러한 이탈방지 노력이 이탈가능성이 매우 높은 고객에게는 별 효과가 없었으나, 이탈가능성이 어느 정도 높은 고객에게는 큰 효과를 발휘한다는 것을 발견할 수 있었습니다.


스포츠 경영에 적용된 사례

스포츠 경영에서도 스포츠 소비자에 대한 마케팅 전략이나 활동을 위해 데이터마이닝을 이용한 소비자 관련 정보분석의 역할이 강조되고 있는 상황입니다.

이미 많은 선진 프로 스프츠 관련 기업들은 스포츠 소비자의 행위에 있어서 여러 특성들을 구체적으로 분류해서, 그들이 목표로 하는 소비자와 행동 특성을 파악하고 있는데 이를 위해 입장권 판매나 회원 모집을 통한 정보 그리고 이벤트 사업 들에서 획득되는 소비자 관련 정보들을 다양하게 수집해서, 분석하고 있습니다.

profile
성장을 도울 아카이빙 블로그

0개의 댓글