데이터분석 준전문가 정리 Part1

장영일·2023년 2월 20일

ADsP

DA

목록 보기

1/1

Part1. 데이터 이해

Section 1. 데이터 이해

1. 데이터와 정보

01. 데이터(Data)

1) 데이터의 의미와 특성

데이터는 객관적인 사실(Fact)이라는 측면에서 존재적 특성을 가지고,
추론, 예측, 전망, 추정을 위한 근거(Basis)라는 측면에서 당위적 특성을 가진다.

2) 데이터의 유형

정성적 데이터 : 페이스북, 블로그, 트위터 등에서 사용하는 언어, 문자의 형태
정량적 데이터 : 기업의 DBMS에 저장되어 있는 수치, 기호 형태로 저장된 것

3) 지식경영과 지식창조 프로세스

지식창조 이론 : 기업 내에서 지식이 창출되는 과정 및 창조적 지식개발능력을 제고하는 조직형태와 적용방향을 설명
지식창조 매커니즘은 1회에 끝나는것이 아니라 나선형 형태로 지속되고 반복되는 과정에서 지식이 축적되는 것이다.
암묵지 : 언어 등의 형식을 갖추어 표현 될수 없는 경험과 학습의 몸에 쌓인 지식
형식지 : 구체적이거나 문서화된 것으로 공식적이고 체계적인 언어도 전달 가능한 지식

특성	내용
공동화(Socialization)	- 암묵지를 고차원의 암묵지로 전환하는 과정 - 조직원간에 초보적인 경험과 인식을 공유하여 한 차원 높은 암묵지를 창조
표준화(Externalization)	- 암묵지를 형식지로 전환하는 과정 - 암묵지가 구체적인 개념으로 전환되고 언어로 표현되어 공식화
연결화(Combination)	- 분산된 형식지의 단편들을 수집, 분류, 통합하여 새로운 형식지를 창조하는 과정 - 지식을 체계화하여 지식체계로 전환
내면화(Internalization)	- 형식지를 다시 암묵지로 전환 - 공동화, 표준화, 연결화를 통해서 검증받은 모델이나 기술적 노하우가 개인의 암묵지로 체화

02. 데이터(Data)와 정보(Information)의 관계

데이터는 객관적인 사실을 나타내며 여러개의 데이터가 체계화되고 조직화되어 정보로 사용
정보는 다시 미래를 예측할 수 있는 결과물인 지식으로 변환되고 지식이 쌓여서 다시 지혜로 변환

구분	특징
지혜(Wisdom)	- 근본적인 원리를 이해하고 이를 토대로 도축되는 창의적인 아이디어
지식(Knowledge)	- 상호 연결된 정보패턴을 이해하고 이를 토대로 해서 예측한 결과물
정보(Information)	- 데이터의 가공 및 상관관계 간 이해를 통해서 패턴을 인식하고 의미를 부여한 데이터
데이터(Data)	존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공 전의 순수한 수치나 기호를 의미

2. 데이터베이스 정의와 특징

01. 데이터베이스(Database) 개요

사용자들이 사용하는 데이터를 저장하여 여러사람들이 같이 공유하며 사용할 수 있는 데이터의 집합체 의미

구성	설명
통합된 데이터	- 데이터의 중복없이 저장하여 데이터를 최소화
저장된 데이터	- 컴퓨터가 접근 가능한 저장매체에 저장된 데이터
운영 데이터	- 기업의 목적에 맞에 운영할 수 있는 데이터
공용 데이터	- 기업이나 조직이 공동으로 소유하고 활용

특징	설명
실시간성(Real Time)	- 다수의 사용자로부터 데이터 검색, 질의에 즉시 응당
지속적 변환(Continuos Evaluation)	- 데이터 입력, 수정, 삭제 등의 작업으로 최신의 데이터를 유지함
동시 공유성(Concurrent Sharing)	- 여러 사용자가 데이터에 접근하고 공유함
내용에 의한 참조(Content Reference)	- 데이터의 참조는 데이터 내용에 의해서 참조됨

02. 데이터 웨어하우스(DW; Data Warehouse)

데이터 웨어하우스는 기업의 합리적인 의사결정을 위해서 기업 내부 및 외부 데이터를 통합한 데이터의 집합체
데이터 웨어하우스는 기업의 모든 데이터를 하나의 전사적 데이터베이스에 보관하는 것을 의미하지 않음

특징	설명
주체지향적(Subject Oriented)	- 정보를 주제에 맞게 (고객, 창구, 상품 등) 분류, 가공하여 구조화
통합적(Intergrated)	- 기업 내부의 운영 데이터와 기업 외부에서 수집된 외부 데이터는 통합하고 가공
시계열성(Time-variant)	- 과거, 현재 데이터를 일정기간 동안 저장하여 미래를 예측하고 시점 별로 분석이 가능
비소멸성(Non-volatile)	- 갱신이 발생하지 않는 조회 전용

구성요소	주요 내용
데이터 모델(Data Model)	- 주체지향적으로 설계된 ER(Entity Relationship) 모델 - OLAP을 활용한 다차원 분석을 위한 다차원 모델
ETL(Extract Transform Load)	- 기업내부 및 기업외부 데이터를 추출, 정제, 및 데이터 웨어하우스에 적재를 수행하는 작업
ODS(Operational Data Store)	다수의 OTLP 시스템에서 추출한 데이터를 통합적으로 관리하는 데이터베이스
DW Meta Data	- DW의 데이터 모델에 대한 정의를 제공하는 운영 메타데이터와 비즈니스 측면에서 정보를 제공하는 활용 메타 데이터
OLAP(Online Analytical Processing)	- 고객이 직접 OLAP 툴을 통하여 다차원 분석을 수행하는 솔루션
데이터마이닝(Data Mining)	- 대규모의 데이터로부터 이미 알려지지 않은 사실과 패턴을 분석하는 과정
경영기반 솔루션	- 분석을 위한 BSC, RMS, BI, DSS, EIS 등의 경영기반 솔루션

03. 데이터베이스의 활용

구분	설명
KMS(Knoweledge Management System)	- 조직 내의 인적자원들이 축적한 지식을 체계화하고 공유하는 기업정보 시스템
ERP(Enterprise Resource Planning)	- 기업 업무 프로세스를 통합적으로 연계관리 해주며, 실시간 빠른 처리 제공
SCM(Supply Chain Management)	- 공급사슬 상의 정보, 물자, 현금흐름에 대해 총체적인 관점에서 체인 간의 인터페이스 및 프로세스를 통합관리
CRM(Customer Relationship Management)	- 고객과의 관계를 강화하기 위한 전략으로 LTV(Life Time Value)를 극대화가히 위한 경영전략
EAI(Enterprise Application Intergration)	- 전사적 애플리케이션을 연동하여 필요한 정보를 중앙집중적으로 통합, 관리, 사용할 수 있는 미들웨어 솔루션
클라우드 컴퓨팅(Cluod Computing)
ISP(Information Strategy Planning)	- 비즈니스 중장기 경영비전 및 전략을 효과적으로 지원하기 위해서 전사적인 관점에서 정보시스템, 정보관리 체계, 정보시스템 절략계획을 수립하는 활동 - 조직의 경영목표 및 비즈니스 전략을 효과적으로 지원하기 위해서 정보화 전략을 수립하는 컨설팅

Section 2. 데이터의 가치와 미래

1. 빅데이터의 이해

01. 빅데이터(Big Data)

빅데이터는 다양한 형태의 데이터로, 방대한 양, 기존의 방식으로 수집, 분석하기 어려움 데이터
정형과 비정형 데이터 모두를 포함아여 데이터에서 가치를 추출, 분석기술

특성	내용
01.Volume (규모)
02.Vairety(다양성)
03.Velocity(속도)
04.Veracity(정확성)
05.Value(가치)

02. 빅데이터의 미래

빅데이터는 지속적으로 구축되는 데이터를 활용하여 인공지능, 머신러닝, 딥러닝 형태로 발전
빅데이터를 분석 운영하기 위해서는 기본적인 7가지 테크닉 필요

테크닉	내용
01.연관규칙 학습	- 어떤 변수들간의 관련성을 분석
02.유형분석	- 문서를 분류하거나 조직을 그룹화
03.기계학습	- 데이터를 학습하여 알려진 특성을 활용하여 예측
04.유전 알고리즘	- 대량의 유전자 데이터분석을 통해서 특정 알고리즘을 도출하고 활용
05.회귀분석	- 독립변수와 종목변수 간의 어떤 관계가 있는지 분석
06.감성분석	- 특정 주제에 대해서 말을 하거나 글을 쓴 사람의 감정을 분석
07.소셜 네트워크 분석	특정인과 다른 사람의 관계를 파악하고 영향력있는 사람을 분석

2. 빅데이터의 가치와 영향

01. 빅데이터 활용을 위한 3대 요소

빅데이터 활용을 위한 3대 요소는 자원, 기술, 인력으로 구분
자원은 빅데이터, 기술은 빅데이터 플랫폼, 인력은 데이터사이언티스트

02. 빅데이터 처리 프로세스

저장(1~4)과 처리(5~6) 프로세스틑 빅데이터의 핵심이다.
1) 데이터 소스 -> 2) 데이터 수집 -> 3) 데이터 처장 -> 4) 데이터처리 -> 5) 데이터 분석 -> 6) 데이터 표현

03. 빅데이터 처리 프로세스별 관련 기술

흐름	영역	관련기술
소스	- 내부 데이터 - 외부데이터	- DB, FMS - File, Multimetia, Streaming
수집	- 크로링 - ETL	- 웹로봇을 사용한 웹페이지 수집 - 소스 데이터 추출, 전송, 변환, 적재
저장	- NoSQL, DB - Storage - Servers	- 비정형 데이터 처리 - 빅데이터 저장 - 초경량 서버
처리	- Map Reduce - Processing	- 데이터 추출 - 다중 업무처리
분석	- NPL - Machine Learning - Serialization	- 자연어 처리 - 데이터 패턴 발견 - 데이터 순서화
표현	- Visualization - Acquisition	- 도표, 그래픽으로 가시화 - 데이터 획득 및 재해석

3. 빅데이터 비즈니스 모델

01. 빅데이터 서비스 모델

전력 빅데이터
보건 및 의료 빅데이터
유통 빅데이터
관광 빅데이터
ㅂ블록별 매출분석 및 연계지역 분석

02.원시 데이터 구성 및 보관 방식

1) 데이터 레이크 (Data Lakes)

데이터 레이크는 막대한 원시 데이터를 본연의 형식 그대로 저장하는것을 의미
다양한 리소스에 발생하는 방대한 양의 데이터를 수집 보관

2) 데이터 레이크 보호방식

접근 및 권한부여에 대한 적절한 통제
강력한 ID 관리
감사 프로세스
충분히 테스트된 치밀한 사고 대응 계획
데이터 암호화 구현

3) 빅데이터 저장방식

RDB / NoSQL / 분산파일시스템

4. 위기요인과 통제방안

01. 빅데이터 위기요인과 통제

사생활 침입 : 특정데이터가 본래 목적 외로 가공되어 2,3차 목정으로 활용
-> 개인정보를 사용해서 분석하는 분석자가 책임을 져야한다.
책인원칙 훼손 : 분석대상이 되는 사람들은 예측 알고리즘으로 희생양이 될 가능성
-> 기존의 책임원칙을 강화
데이터 오용 : 데이터에 대해서 잘못된 인사이트를 얻어서 비즈니스에 직접적인 손실
-> 데이터 알고리즘에 대한 접근권한 허용, 객관적인 인증 방안을 도입

1) 개인정보보호 가이드라인
2) 비식별화와 익명 데이터

비식별화(De-identification) : 데이터셋에서 개인을 식별할 수 있는 요소들의 전부 혹은 일부를 삭제하거나 대체하는 과정 의미
익명 데이터(Anonymous Data) : 정보수집 단계에서 근원적으로 개인을 식별할 수 없는 형태로 수집한 정보

02. 비식별화 조치

가명처리 (Pseudonymisation) : 개인정보를 다른값으로 대체
총계처리 (Aggregation) : 데이터 총합값을 보임으로써 개별 데이터 값을 보이않게 함.
평균값 대체 (Replacement) : 데이터 평균값을 보임으로써 개별 데이터 값을 보이않게 함.
데이터 값 삭제 (Data Reduction) : 데이터 셋에 구성된 값 중에 필요없는 값 또는 개인식별에 중요한 값을 삭제
범주화 : 데이터의 값을 점부의 값으로 변환하여 명확한 값을 감춤
데이터 마스킹 : 개인식별자가 보이지 않도록 마스킹 값으로 대체

Section 3. 데이터 사이언스와 전략 인사이트

1. 빅데이터 분석 및 전략 인사이트

01. 분석목적 설정

분석목적은 빅데이터 분석을 기획하기 전에 기업에서 빅데이터 분석을 통해서 얻고자 하는 가치를 정의
사전에 분석목적을 정의하고 분석과정에서 수행할 과제를 정의한 후에 과제별 우선순위를 정의
데이터 사이언티스트의 역량 : 수학과 통계 / 정보기술 / 도메인 지식

구분	특징
하드스킬	- 빅데이터 처리 및 분석에 필요한 이론적 지식, 기술적 숙련과 관련된 능력 - 머신러닝, 통계, 분산 컴퓨팅
소프트스킬	- 데이터의 가치를 발견하고 기회를 만들 수 있는 능력 - 창의적 사고, 호기심, 논리적 비판, 스토리텔링, 비주얼라이제이션, 커뮤니케이션

02. 빅데이터 분석의 기본 원칙

빅데이터를 분석할 때에는 질문에서 시작
기존 데이터와의 연결고리를 적극 활용
어려운 방식의 프로그래밍 방식과 툴은 제외
피드백은 반드시 반영하여 최종 결과 산출

03. 빅데이터 분석 주체 유형

빅데이터 분석 주제 유형은 분석대상(What), 분석방법(How)에 따라서 분류

유형	설명
최적화(Optimization)	- 분석대상 및 분석방법을 알고 있는 경우에 문제를 해결하기 위해서 최적화 수행
솔루션(Solution)	분석대상을 알고 있지만 분석방법을 알지 못하는 경우 솔루션을 찾는 방법으로 분석과제를 수행
통찰(Insight)	분석대상이 불분명하지만 분석방법을 알고 있는 경우에 통찰을 도출
발견(Discovery)	분석대상과 분석방법을 모를때 분석 자체를 새롭게 도출

04. 목표 시점별 분석기획

목표 시점별 분석기획 방법은 과제 중심의 접근방법과 마스터 플랜 방식으로 분류
과제중심접근방법은 현재의 과제를 빠르고 단기적으로 해결
마스터플랜단위접근방법은 장기적으로 분석과정을 정의

05. 빅데이터 분석기획 시 고려사항

No.	고려사항	설명
1	가용데이터(Available Data)	- 정형/비정형/반정형 데이터 등으로 분석을 위해서 데이터 확보 - 수집되는 데이터의 유형에 따라서 실제 분석을 하는 방법도 달라지고 분석 솔루션도 달라짐
2	유즈케이스(Proper Use-case)탐색	- 빅데이터 분석을 위해서 이전 프로젝트에서 사용된 시나리오를 활용하면 최대한 정확하게 분석
3	장애요소 사전제거(Low Barrier of Execution)	- 기업의 비즈니스 변화에 따라 변하는 환경에서는 지속적이고 반복적인 분석활동을 통해서 변화하는 분석모델을 만드는것이 중요 - 일회성 분석 활동이 아니라 지속적인 분석활동을 하기 위해서 장애요서 제거

2. 전략 인사이트 도출을 위한 필요역량

01. 데이터의 특징

빅데이터 분석을 위한 가장 중요한 것은 데이터를 수집

1) 존재론적 특징

데이터가 가지고 있는 존재적 특징으로 정성적 데이터와 정량적 데이터로 구분

2) 목적론적 특징

주체의 관점에 따라 원본 데이터의 속성 분리, 다른 데이터와의 별합들이 발생하여 새로운 데이터 객체 생성

3) 수집활동에서의 데이터 특징

데이터 수집활동은 수집된 데이터를 활용하기 위한 재생산 과정
가역데이터 : 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터
불가역데이터 : 원본 데이터와 전혀 다른 데이터로 재생산되었기 때문에 추적 불가

02. 데이터 확보계획 수립

1) 필요 데이터 정의

분석목적에 맞는 데이터를 정의하고 데이터별로 확보가능 여부 확인
기업내부 및 관련기관, 지자체, 실무자 및 외부전문가 등 이해관계자들과 업무 해결을 위한 인터뷰를 통해서 적합한 데이터 목록을 작성

2) 데이터 확보 방안

기업내부 데이터 확보
- 필요한 데이터에 대한 명, 설명, 형태, 용량 등 현황조사 수행
- 분석대상 데이터의 관리 권한, 타 부서와의 공유 여부 확인
- 법률적 리스크 확인 (사용 불가능 여부 확인)
- 개인정보의 경우 비식별화 수행 방안 고려
기업외부 데이터 수집
- 데이터 보유기업, 데이터에 대한 명, 설명, 형태, 용량, 제공형태 등 현황조사 수행
- 수집과 관련된 법류상 제약사항 확인
- 법률상 제약사항이 있을경우 보유 기관과 데이터 공유가능한지 확인
- 데이터 구매비용을 고려

3) 단계적 데이터 확보 방법

가트너 단계적 데이터 확벙 방법론

단계	내용	방법
1단계 Silos Hoarding	- 조직의 독자적 데이터 생성, 저장 중심의 단계 - 외부데이터는 인터넷을 통한 수집 가능 - 데이터의 신뢰성과 품질제고 노력 필요	생성, 저장, 수집(검색)
2단계 Exchanges Sharing	- 기업의 데이터를 외부 기관들과 상호 교환하는 단계	연계 및 공유
3단계 Pools Aggregation	- 특정한 활동이나 목적을 위해 모인 연합, 그룹, 클럽들이 상호협력과 공동의 장 형성 - 표준화된 데이터 Pool의 연계를 통해 국경을 초월한 정보 교환과 상호이용 가능	참여, 협력
4단계 Commons Co-creating	- 오픈방식 플랫폼을 통한 데이터 공유 - 상호협력과 참여를 통해 공동의 자원 창조	오픈, 창조

03. 데이터 분석 방안

1) 분석과제 추진가능성 검토

평가항목	방법
필요성	공공정책 결정이나 공공 서비스 측면에서 본 분석과제가 필요한지를 판단
파급효과	정성적, 정량적 기대효과의 정보를 판단
추진 시급성	당장 해소되어야 할 사회현안 여부를 판단
구현 가능성	과제를 구현함에 있어서 어려움이 없는지 현실성을 판단
데이터 수집 가능성	기관 협조나 데이터 확보, 데이터 구매 비용 등 제약사항을 판단
모델 확장성	과제가 시범 과제로 끝나지 않고 전국 모델로 확장 가능한지를 판단

2) 분석방안 수립

보유한 데이터와 분석 방법론등을 활용하여 분석방안 수립
현재 이슈에 대한 기초 분석 단계설정하고 이슈화 현황 도출
현업부서, 정보화팀, 빅데이터 전문가와 함께 어떤 데이터를 활용해서 어떤 이슈를 해결할 것인지 분석 목표와 이에 따른 방안을 제시
과제의 이해도를 높이고 국내외 선행 사례 또는 전문가와 함께 실현 가능한 분석방안 구성과 성과목표를 수립
데이터를 추가하거나 기존의 데이터를 변경하고, 선행 사례의 분석 방법론에 대한 변경 들을 고려하여 이슈 해결방안을 모색
분석방안은 기술적 해결책과 무관하게 정책 결정자와 최종 사용자 위주의 관검에서 기술

장영일

한 줄