비정형 데이터마이닝의 개념 및 기법

매일 공부(ML)·2022년 2월 24일

Bio_theory R

바이오헬스 빅데이터 마이닝

목록 보기

12/13

비정형 데이터

*개념

비정형데이터는, 글자 그대로 정형화되지 않은 데이터로 구체적으로 말하면, 미리 정의된 데이터 모델을 가지고 있지 않은 데이터를 말합니다.

문서의 경우에도 텍스트가 대부분이지만 그 속에는 다른 그림이나 표 등이 들어있어서 불규칙성이 있고
의미를 파악하기가 애매하기 때문에 기존의 일반적인 프로그램을 적용하기가 어렵습니다.

*예시

책이나, 저널 문서, 메타데이터, 건강기록, 오디오, 비디오, 아날로그 데이터, 이미지, 파일뿐만 아니라 이메일, 메시지나 웹페이지, 워드 프로세서 문서 등의 내용에 해당되는 비정형 텍스트까지도 들 수 있습니다.

그 뿐만 아니라 약어, 속어, 신조어 등이 포함된 채팅, 이메일, SMS 용어와 같은 비표준 텍스트까지도 비정형데이터에 포함된다고 할 수 있습니다.

*분석기법

텍스트마이닝, 웹마이닝, 오피니언마이닝, 소셜네트워크 분석

비정형 데이터 마이닝 기법

텍스트마이닝(Text Mining)

인터넷 자료, e-mail, 여러 분야의 논문, 신문 또는 잡지의 기사나 여론조사 보고서등 대부분의 자료가 텍스트로 이뤄져있습니다.

인간의 언어로 이뤄진 비정형 텍스트 데이터들을 자연어 처리 방식을 사용하여 대규모 문서에서 정보 추출 및 연계성 파악을 통해서 분류, 군집화, 요약등 빅데이터에 숨겨진 의미 찾습니다.

기존의 통계분석이나 데이터 마이닝으로 적용하기 어려운 부적합한 데이터를 다루고 텍스트 분석, 텍스트 데이버 베이스로부터 지식 발견, 문서마이닝등으로 불립니다.

처리 과정

준비 단계
- 입력되는 데이터를 범위에 맞게 적절한 것으로 확립
- 일부 텍스트 분석에서 진보된 통계 방법을 적용하지만 대부분 정보 검색이나 텍스트 식별 의미
- 웹 상에서 파일 시스템, 데이터베이스, 내용관리 시스템 등에서 문제 범위에 맞게 일련의 텍스트들을 수집하거나 식별
- 수집된 텍스트들은 텍스트 파일과 같은 컴퓨터 처리에 적합하고 통일된 형태로 디지털화되고 조직화

전처리 단계
- 범위에 맞게 조직화된 텍스트들을 정형화된 표현 양식으로 만들기
- 텍스트 문서에서 단어를 찾아서 목록을 만든 후 그 목록에서 전문 분야와 연결하여 의미를 갖는 용어를 식별하여 목록을 만든다.
- 용어 목록과 텍스트 문서와의 관계를 인덱스로 연결하여 행렬 구조
- 행 기준으로 하나의 텍스트 문서가 용어 목록에 의해 어떤 의미를 갖는지 나타냄
- 열 기준으로 하나의 용어가 각 텍스트 문서에서 나타나는 빈도가 어느정도인지 나타냄

지식 추출
- 문제 범위에 맞게 변화된 정형 데이터에서 의미 있는 패턴이나 관계와 같은 지식 발견
- 분류, 클러스터링, 개념 및 개체 추출, 세분화된 분류체계의 생산, 심리분석, 문서요약, 개체관계 모델링이 있다
- 텍스트 분류는 분류 체계를 가지고 텍스트 내용을 보고 주제에 따라 분류
- 텍스트 클러스터링은 분류 체계를 모르는 상태에서 성격이 비슷한 것까지 같은 군집으로 묶기

특징

비정형 데이터, 즉 일상에 나타날 수 있는 문장 혹은 단어들의 조합을 처리하여 정형화된 데이터로 생성하고 이를 통해 의미 있는 형상 또는 패턴을 발견하기 위해 활용되기에 시간과 비용을 줄이면서 비지니스 현상을 더 빨리 파악하고 대응하게 해줍니다.

전망

텍스트 마이닝 이점 증가

정기적으로 정형화 및 비정형화된 데이터 모두 분석하고 싶은 기업 및 조직 증가

텍스트 마이닝 애플리케이션

텍스트 마이닝 애플리케이션의 성공 사례가 증가함에따라 정형 빛 비정형 데이터를 동시에 분석하는 텍스트 마이닝 기술이 필수 요소로 잡힐 것이다.

웹 마이닝

인터넷을 통해 웹 서비스를 이용하면서 웹에서 패턴을 발견하는 분야로 전통적인 데이터마이닝의 분석방법론을 사용합니다.

그러나 웹 데이터의 속성이 반정형이거나 비정형이고, 링크 구조를 가지고 있기 때문에 전통적인 데이터마이닝 기술에 추가적인 분석 기법을 적용하여 사용합니다.

웹마이닝은 분석 대상에 따라서 웹 사용 마이닝, 웹 구조 마이닝, 웹 콘텐츠 마이닝 등으로 구분할 수 있습니다.

분석 대상

*웹 사용 마이닝

웹 사용 마이닝은 웹상에서 사용자가 찾고자 했던 것을 기록하고 있는 웹서버 로그에서 유용한 정보를 추출하는 과정을 말합니다.

웹 사용 마이닝은 웹 기반 애플리케이션이 필요로 하는 것을 이해하고 서비스해 주기 위해서 웹에서 흥미 있는 사용 패턴을 발견하는 데이터마이닝 기술을 응용한 것으로 웹 사용자가 웹사이트에서 사용한 데이터를 통해서 나타난 행위에 따라 그들의 성과 성향을 추출합니다.

웹 사용 마이닝 그 자체는 사용 데이터의 종류에 의존적인 것으로 구분하여 볼 수 있습니다.

즉, 사용데이터는 웹서버 데이터, 애플리케이션 서버데이터, 애플리케이션 수준데이터로 나누어 볼 수 있습니다.

웹서버 데이터는 웹서버에 의해 수집되는 IP주소라든가, 페이지 참조사항, 접근시간 등과 같은 사용자 로그에 해당되는 웹서버 데이터를 말하구요.

애플리케이션 서버데이터는 전자상거래와 관련하여 여러 가지 종류의 이벤트를 추적하고 이것을 애플리케이션 서버로그로 기록할 수 있게 하는 중요한 특징에 해당되는 데이터를 말합니다.

애플리케이션 수준 데이터는 새로운 종류의 이벤트와 애플리케이션에 정의될 수 있고 이들과 같이 특별히 정의되는 이벤트의 히스토리를 발생시키는 것이구요, 로그기록을 변환할 수 있는 데이터를 말합니다.

*웹 구조 마이닝

웹사이트의 노드와 연결 구조를 분석하기 위해 그래프 이론을 사용하는 과정을 말합니다.

웹 구조 마이닝은 웹 구조 유형에 따라서 웹에서 하이퍼링크로부터 패턴을 추출하는 것과 문서 구조를 분석하는 것으로 구분할 수 있습니다.

하이퍼링크라는 것은, 다른 웹페이지나 위치로 연결하는 정보로서 텍스트에 덧붙여 하이퍼텍스트를 만드는 것을 말합니다.

문서구조는 HTML이나 XML 태그 사용법을 설명하는 페이지 구조와 같은 것입니다.

HTML은 텍스트에 하이퍼링크를 덧붙인 하이퍼텍스트를 구현하여 웹페이지를 만드는 클라이언트 중심의 웹 프로그래밍 언어에 해당됩니다.

*웹 콘텐츠 마이닝

웹페이지에서 유용한 데이터, 정보, 지식을 마이닝하고 추출하여 통합하는 것을 말합니다.

웹 콘텐츠 마이닝은 정보 검색 관점과 데이터베이스 관점과는 차별화됩니다.

정보검색 관점에서 보면, 웹 콘텐츠 마이닝은 정형 데이터 이외에도 독립적으로 통계를 기반으로 하여 모은 단어, 또는 특징에 따라 훈련시킨 텍스트에서 발견하는 단어와 같은 비정형 데이터, 그리고 문서 내부에서 HTML 구조를 유용하게 만드는 태그들과 문서들 사이의 관계를 나타냅니다.

용이한 하이퍼링크 구조와 같은 반정형 데이터 등을 다룬다는 측면이 다른 것과 구별되는 특성이라고 할 수 있습니다.

데이터베이스 관점에서 보면, 웹 콘텐츠 마이닝은 웹상에서 정보 관리와 질의를 보다 더 잘할 수 있도록 하기 위한 데이터베이스입니다.

웹사이트를 변형할 수 있도록 웹사이트 구조를 추론하려고 끊임없이 노력한다는 측면이 또 다른 특성이라고 할 수 있습니다.

오피니언 마이닝

어떤 사안이나 인물, 이슈, 이벤트 등과 같은 원천 데이터에서 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것으로 오피니언 분석, 평판 분석, 정서 분석이라고도 합니다.

일반적으로 말해서 오피니언 분석은 어떤 화제나 문서의 전반적 문맥 특성과 관련된 작성자나 화자의 태도를 파악하는데 도움을 줍니다

여기서 태도는 판단이나 평가, 효과적 상태나 의도된 감정적 의사소통 등에 대한 것일 수 있습니다.

오피니언 분석의 기본적인 작업은 문서, 문장, 특징, 관점 수준에서 표현된 견해가 긍정적인지, 부정적인지, 중립적인지, 진보적인지 주어진 텍스트의 특성을 분류하는 것입니다.

*주요 분석 대상

주요 분석 대상은 포털 게시판이나, 블로그, 쇼핑몰과 같은 대규모의 웹 문서이기 때문에 자동화된 분석 방법을 주로 사용합니다.

또한 분석 내용이 주로 텍스트로 이루어져 있기 때문에 텍스트마이닝에서 활용하는 자연어처리나, 텍스트 분석, 컴퓨터 언어학 등의 기술도 함께 사용합니다.

3단계

*1단계

1단계는 긍정 또는 부정을 표현하는 단어정보를 추출하는 단계로 기존에 구축된 사전 등의 리소스를 이용하거나 수작업을 통해서 해당 도메인의 고빈도 긍정과 부정 단어를 확인하는 방법을 사용합니다.

WordNet의 각 어휘에 오피니언 정보를 부착한 SentiWordNet 방식과 WordNetAffect를 활용할 수 있고 학습 데이터에 대한 통계 정보를 활용해서 자동으로 어휘 정보를 얻을 수 있습니다.

*2단계

2단계는 세부 평가요소와 오피니언으로 구성된 문장을 인식하는 단계입니다.

오피니언이 긍정적인지 또는 부정적인지 문장 단위로 분류하기 위해서 규칙기반 방법이나 통계기반 방법을 동시에 사용할 수 있습니다.

통계적인 방법을 사용할 때에는 unigram 보다는 bigram, n-gram으로 확장해서 문맥에 따른 긍정 정보를 판별하고자 하고 있고 자연어 처리 기법을 이용해서 정확도를 향상시키고자 하고 있습니다.

*3단계

3단계는 긍정표현 또는 부정표현의 수 및 중요 문장을 추출해서 리뷰 요약을 생성하는 단계입니다.

오피니언마이닝의 결과는 긍정이나 부정 평가의 정도를 나타내거나 요약 형태로 제시될 수 있습니다.

**특징

첫째는, 의견파악이 용이하다는 것입니다. 즉 사람들의 의견을 쉽게 파악할 수 있다는 것입니다. 따라서 기업의 입장에서 향후 의사 결정을 하는데 중요한 정보를 제공 받는 것이 가능합니다.

둘째는, 서비스 개선이 용이합니다. 공공분야의 경우, 오피니언마이닝을 활용하면 민원의 원인이나 문제점 등을 파악하는 것이 용이해서 서비스 개선이 가능해 집니다.

마지막으로 마케팅 비용이 절감될 수 있다는 장점이 있습니다. 기존에 소비자의 감정과 의견을 조사할 때에는 일일이 설문조사를 통해 사람들의 의견이나 심리를 조사해야 했기 때문에 막대한 마케팅 비용이 들어갔으나, 오피니언마이닝을 활용하면 이를 절감할 수 있게 됩니다.

매일 공부(ML)

성장을 도울 아카이빙 블로그

이전 포스트

정형 데이터마이닝 기법

다음 포스트