데이터마이닝 프로젝트의 프로세스

매일 공부(ML)·2022년 2월 19일

바이오헬스 빅데이터 마이닝

목록 보기

10/13

데이터마이닝 프로젝트 프로세스

프로젝트 수행계획의 수립 단계

성공적인 데이터마이닝의 프로젝트 수행을 위해서는 필요로 하는 세가지의 요소가 있습니다.

세가지 요소는 해당 비즈니스(업무)에 대한 충분한 이해, 필요한 데이터를 관리하고 추출할 수 있는 정보 기술, 그리고 마지막으로 적절한 데이터 처리와 분석을 수행할 수 있는 통계적 데이터 분석 능력을 들 수 있습니다.

무튼 프로젝트의 최종적인 목표와 작은 목표들을 명확하게 정의해야 하고, 실행 상의 계획 등에 대해 구체적으로 논의하고 결정해야 합니다.

이를 위해 고려해야 할 사항이 몇 가지 있는데요, 예를 들면, 프로젝트의 범위와 산출물 정의,업무에 대한 이해 및 공유, 사용자 요구사항과 필요사항 검토, 참여 인력 및 역할에 대한 정의 등 입니다.

데이터에 대한 이해 단계

데이터를 이해하기 위해서는 데이터 유형에 대해 알아야 하는데 데이터의 기본적인 유형으로는 서술적 데이터, 행동특성 데이터, 태도특성 데이터로 구분해 볼 수 있는데요.

서술적 데이터

서술적 데이터는 성별, 연령, 거주지역, 결혼유무, 수입, 주택소유 등 개인이나 가구의 특성을 묘사하고, 보통 요약데이터의 형태를 가지고 있습니다.

*장점

고객에 대한 기본적인 정보를 가지고 있기 때문에 자주 변하지 않고, 갱신은 보통 분기, 반년 혹은 일년 단위로 이루어지기에 안정적이며 예측모형을 구축하는데 유용하게 사용될 수 있습니다.

*단점

개인 단위의 정확한 자료수집이 쉽지 않은 경우가 많기에 특별한 보상이 없는 경우, 많은 사람들은 서술적 데이터를 제공하지 않거나, 거짓 정보를 제공할 가능성이 많기에 비용 문제가 발생합니다.

행동특성 데이터

행동특성 데이터는 기업이 고객과 상호교류함으로써 자연스럽게 발생하는 여러 종류의 데이터들을 의미하는 것으로 이러한 유형의 데이터는 구매행위, 서비스의 이용, 판매촉진 캠페인에 대한 반응, 웹사이트 방문자의 클릭 스트림 등 다양한 형태의 고객접촉으로부터 수집됩니다.

*특징
행동특성 데이터는 구매금액, 구매유형, 구매일, 고객 서비스 이용형태, 연체 등과 같이 고객의 행동이나 행위를 측정한 것으로 예측 모형에 가장 유용합니다.

데이터의 구조도 쉽게 변경되고 갱신되기에 과거의 유용한 행동특성들이 버려지지 않도록 데이터 웨어하우스와 같은 별개의 저장소에 시간에 따라 요약정보의 형태로 보관될 수 있도록 해야 합니다.

태도특성 데이터

태도특성 데이터는 고객의 태도 또는 심리적 특성을 측정한 것으로 주로 여론조사, 서베이, 포커스 그룹 인터뷰 (FGI: focus group interview) 등을 통해 수집되고, 기업들 간의 경쟁이 심해짐에 따라 최근에는 예측모형이나 분석의 정확도를 높이기 위해 태도특성 데이터를 고객 데이터베이스에 결합하는 경향이 증가하고 있습니다.

*장점

마케팅 리서치나 외부 기관으로부터의 구입을 통해 소수의 고객으로부터 수집되는데요, 이를 세분화 또는 통계적 기법을 이용하여 군집화된 훨씬 많은 수의 고객 세그먼트에 적용된다는 점입니다.

*단점

단점으로는 개별 고객 단위의 정확한 데이터 수집이 어렵다는 점인데요. 이 유형의 데이터가 고객의 실제 행동과 부분적인 관련성만을 가진다는 것입니다.

데이터의 원천

예측모형을 위한 데이터는 수많은 원천으로부터 수집되는데요 이들은 보통 데이터베이스 또는 데이터 웨어하우스와 같이 특별히 설계된 저장소에 보관됩니다.

여기서는 데이터의 원천 및 데이터베이스에 관련된 몇 가지 주요 용어들을 살펴보겠습니다.

운영계 데이터베이스

운영계 데이터베이스는 보통 거래 데이터 베이스라고 불리는데요, 기업의 운영과 관련된 업무처리를 위해서 구축된 것으로 이는 운영 어플리케이션으로 발생된 최근 데이터를 저장하며 대량의 데이터들을 저장하는데 최적화되어 있습니다.

또한 운영계 데이터베이스는 운영 시스템의 데이터가 변하는 것에 따라 자주 변하기 쉽습니다.

이러한 유형의 데이터베이스는 보통 OLTP(On-Line Transaction Processing, 즉 온라인 처리 프로세싱) 도구들이 데이터 입력이나 거래조회 등을 위한 트랜잭션 지향의 업무를 위해 사용됩니다.

데이터 웨어하우스

데이터 웨어하우스는 정보계 데이터베이스의 일종으로 기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며, 시간성을 가지는 비휘발성 자료의 집합으로 정의할 수 있습니다.

데이터 웨어하우스의 목적은 조직 전체를 통해 데이터에 대한 통합된 관점을 제공한다는 것인데요.

이는 사용자들이 조금 더 적절하고 유용한 정보를 만들 수 있도록 데이터를 모으고 요약하는 것 입니다.

*특징

주제지향성으로 데이터를 주제별로 구성함으로써, 최종 사용자가 전산에 약하더라도 이해하기 쉬운 형태로 유지하는 것입니다.

시계열성으로, 데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 유지 할 수 있습니다.

통합성으로, 데이터가 데이터 웨어하우스에 입력될 때 일괄적인 형태로 변화되어 데이터의 통합성을 유지한다는 특징을 가지고 있고요.

비휘발성으로, 일단 데이터가 적재되면 일관처리 작업에 의한 갱신 이외에는 데이터 변경이 수행되지 않는다는 점입니다.

데이터 마트

데이터 마트는 특정한 목적의 사용자를 위해 특정 주제영역의 데이터 들로 만들어진다는 것을 의미하는데 데이터 마이닝 프로젝트를 진행함에 있어 여러 개의 독립적인 데이터마트가 만들어질 수 있구요, 이들이 서로 유기적으로 결합되기도 합니다.

메타데이터

메타데이터는 데이터베이스, 데이터 웨어하우스, 데이터마트 등에 대한 내용을 기술하는 데이터 혹은 데이터 사전이라고 불리기도 합니다.

데이터 원천, 수집경로, 데이터에 대한 규칙, 갱신 날짜 등 데이터에 대한 기술적 및 업무적 내용을 담고 있습니다.

데이터 준비

데이터 사전처리

데이터마이닝은 서로 다른 목적을 가지고 수집된 상이한 유형의 데이터들을 분석대상으로 하는 경우가 많기에 이들을 하나의 데이터 마트로 통합하고 성능이 좋은 예측모형을 만들기 위해서는 여러 가지 사전작업이 필요합니다.

이러한 사전처리 작업으로는 크게 재배열, 요약변수, 파생변수, 그룹화로 나누어 볼 수 있습니다.

데이터에 대한 탐색 및 보완

오류값, 결측값, 이상치 등을 중심으로 데이터를 탐색하고 필요한 경우 이를 수정해야 합니다.

오류값은 변수가 가질 수 없는 값, 변수 값의 불가능한 조합, 일관성이 없는 코드값, 잘못된 코드값, 정상이 아닌 자료값 등을 의미합니다.

오류값은 오류의 원인을 파악하여 데이터를 적절한 값으로 변경하거나, 데이터 표준화 등을 통해 오류를 수정해야 합니다.

결측값은 원인과 기록방법을 정밀하게 조사해서 자료를 정정하고 기록방법을 변경해야 합니다.

*자료 보정

자료를 보정할 때 사용 될 수 있는 방법으로는 단일값 대체, 클래스 대체, 다변량적 대체 등의 방법이 있습니다.

단일 값 대체는 해당 변수의 평균, 중앙값, 최빈값 등으로 결측값을 대체하는 것을 말합니다.

클래스 대체는 다른 부집단의 정보를 이용하거나, 동질한 연령과 직업 범주에 속하는 사람들의 평균, 중앙값, 최빈값으로 대체하는 것을 말하구요.

다변량적 대체는 회귀분석 도는 의사결정나무분석과 같은통계적 기법을 이용하여 결측값을 보정하는 것을 말합니다.

마지막으로 이상치는 예측모형의 성능에 큰 영향을 줄 수 있기에 분석의 목적에 적합하지 않은 특이한 개체를 예측모형의 구축에서 제외하거나, 이상치를 적절한 값으로 대체하는 등의 작업을 수행할 필요가 있습니다.

데이터 분석 및 모형화

만들어진 데이터 마트를 이용해서 데이터에 대한 분석 및 예측모형의 구축을 수행하는 단계로 다양한 평가도구들을 이용하여 예측모형의 성능을 평가하고 최종적인 예측모형을 결정합니다.

이런 평가도구로는 회귀분석과 판별분석, 군집분석, 의사결정나무, 신경망모형, 연관성 규칙 등이 있습니다.

평가와 적용

데이터 마이닝의 결과를 엄격히 평가하고, 모델의 신뢰성을 확인하는 단계로 일반적으로 데이터를 학습용, 평가용, 검증용으로 분할하여 사용합니다.

또한 데이터마이닝 결과를 실제적으로 적용하여 활용하게 되는데 이는 데이터마이닝 결과뿐 아니라 데이터마이닝 기술 자체를 활용하는 경우도 증가하게 됩니다.

매일 공부(ML)

성장을 도울 아카이빙 블로그

이전 포스트

데이터마이닝의 개념

다음 포스트