1과목 빅데이터 분석기획

SOOYEON·2022년 4월 2일
0

빅데이터분석기사

목록 보기
1/36

비식별화 조치

k-익명성 (k-anonymity)

  • 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 모델
  • 공개된 데이터에 대한 연결 공격 취약점을 방어하기 위해 제안

l-다양성 (l-diversity)

  • 주어진 데이터 집합에서 함께 비식별 되는 레코드들은 (동질 집합에서) 적어도 l개의 서로 다른 민감한 정보를 가져와야 하는 모델
  • 비식별 조치 과정에서 충분히 다양한 (l개 이상) 서로 다른 민감한 정보를 갖도록 동질 집합을 구성
  • k-익명성에 대한 두 가지 취약점 공격인 동질성 공격, 배경지식에 의한 공격을 방어하기 위해 제안

t-근접성 (t-closeness)

  • 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보여야하는 모델
  • l-다양성의 쏠림 공격, 유사성 공격을 보완하기 위해 제안

m-유일성 (m-uniqueness)

  • 원본데이터와 동일한 속성 값의 조합이 비식별 결과 데이터에 최소 m 개 이상 존재하도록 하여 재식별 가능성 위험을 낮춘 모델


데이터 분석 절차

문연모수 분공

  • 문제 인식 → 연구 조사 → 모형화 → 자료 수집 → 자료 분석 → 분석 결과 공유

데이터 확보 계획 수립

  • 목표 정의 → 요구사항 도출 → 예산안 수립 → 계획 수립

WBS (Work Breakdown Structure) : 작업 분할 구조도


데이터 분석 준비도 프레임워크

데이터 분석 준비도 Readiness

기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법

  • 프레임 워크 :
    분석 업무 파악, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라 총 6가지 영역


분석 업무 파악

  • 발생한 사실 분석 업무
  • 예측 분석 업무
  • 시뮬레이션 분석 업무
  • 최적화 분석 업무
  • 분석 업무 정기적 개선

분석 *기법*

  • 업무별 적합한 분석 기법 적용
  • 분석 업무 도입 방법론
  • 분석 기법 라이브러리
  • 분석 기법 효과성 평가
  • 분석 기법 정기적 개선

성숙도 단계

도입 단계

분석을 시작해 환경과 시스템을 구축하는 단계

  • 일부 부서에서 수행
  • 담당자 역량에 의존

활용 단계

분석 결과를 실제 업무에 적용하는 단계

  • 전문 담당 부서에서 수행
  • 분석 기법 도입
  • 관리자가 분석 수행

확산 단계

전사 차원에서 분석을 관리하고 공유하는 단계

  • 전사 모든 부서 수행
  • 분석 전문가 조직 (CoE; Center of Excellence) 조직 운영
  • 데이터 사이언티스트 확보

최적화 단계

분석을 진화시켜서 혁신 및 성과 향상에 기여하는 단계

  • 데이터 사이언스 그룹
  • 경영진 분석 활용
  • 전략 연계

사분면 분석 유형

준비형

  • 낮은 준비도 & 낮은 성숙도

정착형

  • 낮은 준비도 & 높은 성숙도

도입형

  • 높은 준비도 & 낮은 성숙도

확산형

  • 높은 준비도 & 높은 성숙도



가트너의 분석 가치 에스컬레이터 (Analytic Value Escalator)

묘사 분석

  • 분석의 가장 기본적인 지표
  • 과거에 어떤 일이 일어났고 현재는 무슨 일이 일어나고 있는지 확인

진단 분석

  • 묘사 단계에서 찾아낸 분석의 원인을 이해하는 과정
  • 데이터를 기반으로 왜 발생했는지 이유를 확인

예측 분석

  • 데이터를 통해 기업 혹은 조직의 미래, 고객의 행동 등을 예측하는 과정
  • 무슨 일이 일어날 것인지를 예측

처방 분석

  • 예측을 바탕으로 최적화하는 과정
  • 무엇을 해야 할 것인지를 확인



데이터 사이언스

개념

데이터 사이언스란 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문

통계학과 데이터 사이언스는 '데이터를 다룬다' 는 것이 비슷하지만
데이터 사이언스는 더욱 확장된 유형의 데이터를 다룬다.

데이터 사이언티스트 요구 역량

협통전 숙지

소프트 스킬 : 협력 능력 통찰력 전달력
하드 스킬 : 숙련도 지식

인문학 열풍을 가져온 외부환경 요소

  • 컨버전스 → 디버전스
  • 제품 생산 → 서비스
  • 생산 → 시장창조



데이터 수집

방식 및 기술

  1. ETL ; Extract Transform Load
  2. FTP ; File Transfer Protocol
  3. 스쿱 Sqoop
  4. 스크래파이 Scrapy
  5. 아파치 카프카 Apache Kafka
  6. 플럼 Flume
  7. 스크라이브 Scribe
  8. 척와 Chukwa
  9. CEP ; Complex Event Processing
  10. EAI ; Enterprise Application Integration
  11. CDC ; Change Data Capture
  12. ODS ; Operational Data Store
  13. 크롤링 Crawling
  14. RSS ; Rich Site Summary
  15. Open API
  16. 스트리밍 Streaming

1. ETL ; Extract Transform Load

데이터웨어하우스 및 데이터마트로 분석을 위한 데이터를 이동시키기 위해 추출 변환 적재하는 작업 및 기술

  • 프로세스 : 추출 - 변환 - 적재

2. FTP ; File Transfer Protocol

TCP/IP 프로토콜을 기반으로 서버, 클라이언트 사이에 파일 송수신을 하기 위한 프로토콜

  • 유형 : Active FTP , Passive FTP

3. 스쿱 Sqoop

커넥터 Connector를 사용하여 RDBMS → HDFS 데이터 수집, OR HDFS → RDBMS 로 데이터를 보내는 대용량 데이터 전송 솔루션

특징

  • 벌크 임포트 Bulk Import 지원 : 전체 DB or 테이블을 HDFS에 한 번에 전송가능
  • 데이터 전송 병렬화 : 시스템 사용률과 성능 고려한 전송
  • 직접 입력 제공 : RDB 매핑, Hbase 와 Hive에 직접 import제공
  • 프로그래밍 방식의 인터렉션 : 자바 클래스 생성을 통한 데이터 상호작용

구성요소

  • 스쿱 클라이언트
  • 스쿱 서버
  • 커넥터
  • Import
  • Export

9. CEP ; Complex Event Processing

여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리 기술

  • CEP를 통해 실시간 상황에서 의미 있는 이벤트를 파악하고 가능한 빨리 대응할 수 있다.

10. EAI ; Enterprise Application Integration

기업에서 운영되는 서로 다른 플랫폼 및 애플리케이션들 간의 정보 전달, 연계, 통합을 가능하게 해 주는 연계기술

  • EAI 를 사용함으로써 각 비즈니스 간 통합 및 연계성을 증대시켜 효율성을 높여줄 수 있으며 각 시스템 간의 확장성을 높여 줄 수 있다.

11. CDC ; Change Data Capture

데이터 백업이나 통합 작업을 할 경우 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 처리 기술

  • 실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무 시스템에 활용됨

12. ODS ; Operational Data Store

데이터에 대한 추가 작업을 위해 다양한 데이터 원천 (Source)들로 부터 데이터를 추출 및 통합한 데이터 베이스

  • ODS내 데이터는 비즈니스 지원을 위해 타 시스템으로 이관되거나, 보고서 생성을 위해 데이터 웨어하우스로 이관된다.

13. 크롤링 (Crawling)

인터넷 상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹 문서 및 콘텐츠 수집 기술

14. RSS ; Rich Site Summary

블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술

15. Open API

응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술

  • Open API를 통해 센서 데이터, 공공 데이터 등의 정보를 수집할 수 있음

16. 스트리밍

네트워크를 통해 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술




데이터 적재

적재 도구

  • 플루언티드 Fluentd
  • 플럼 Flume
  • 스크라이브 Scribe
  • 로그스태시 Logstash

데이터 저장

저장 기술

  1. 데이터 웨어하우스

    사용자의 의사결정에 도움을 주기 위해 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스

    • 특징 : 주제 지향적, 통합적, 시계열적, 비휘발적
    • 주제 지향적 : 기능 or 업무 X , 주제 중심적
    • 통합적 : 일관성 유지, 전사적 관점 하나로 통합
    • 시계열적 : 시간에 따른 변경을 항상 반영
    • 비휘발적 : 적재가 완료되면 읽기 전용 형태의 스냅 샷 형태로 존재

  2. 데이터 마트

    전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스

    • 특징 : 특정한 조직 혹은 팀에서 사용하는 것이 목적
  3. 데이터 레이크

    정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의 데이터 Raw Data를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소

    • 특징 : 구조화된 데이터 - RDBMS 저장, 반구조화된 데이터 - CSV, XML, JSON 저장, 비정형 데이터 - 바이너리 데이터 형태로 저장

빅데이터 저장 기술

분산 파일 시스템
1. 구글 파일 시스템 (GFS)
2. 하둡 분산 파일 시스템 (HDFS)
3. 러스터 (Lustre)

데이터베이스 클러스터
1. 오라클 RAC
2. IBM DB2 ICE
3. MSSQL MySQL

NoSQL
1. 구글 빅테이블
2. HBase
3. 아마존 SimpleDB
4. 마이크로소프트 SSDS


분산 파일 시스템 : 구글 파일 시스템 GFS

  • 구글의 대규모 클러스터 서비스 플랫폼 기반이 되는 파일 시스템
  • 구성요소
    • 클라이언트 : 파일에 대한 읽기/쓰기 동작을 요청하는 애플리케이션
    • 마스터 : 주기적으로 청크 서버의 하트비트 메시지를 이용하여 모든 메타 데이터를 메모리상에서 관리
    • 청크 서버 : 로컬 디스크에 청크 저장

분산 파일 시스템 : 하둡 분산 파일 시스템 (HDFS)

  • 수십 테라바이트 OR 페타바이트 이상의 대용량 파일을 분산된 서버에 저장, 저장된 데이터를 빠르게 처리할 수 있게 하는 분산 파일 시스템
  • 구성요소
    • 네임노드 : HDFS 상의 모든 메타데이터 관리, 마스터역할 수행
    • 보조네임 노드 : HDFS 상태 모니터링 보조, 네임노드의 파일시스템 이미지를 스냅샷으로 생성
    • 데이터 노드 : 슬레이브 노드, 데이터 입출력 요청 처리


하둡 에코 시스템

하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임

  • 하둡 에코 시스템은 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분할 수 있다.

실시간 SQL 질의

임팔라 (Impala)

  • 하둡 기반 SQL 질의 시스템
  • 데이터 조회를 위한 인터페이스로 HiveQL을 사용
  • 수초 내에 SQL 질의 결과를 확인할 수 있으며 HBase 와 연동 가능

타조 (Tajo)

  • 다양한 데이터 소스를 위한 하둡 기반의 ETL 기술을 이용해서 데이터 웨어하우스에 적재하는 시스템
  • HDBS 및 다양한 형태의 데이터를 추출하고 분석 시스템에 전송하여 집계 및 연산, 조인, 정렬 기능을 제공

워크플로우 관리

우지 (Oozie)

  • 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
  • 자바 서블릿 컨테이너에서 실행되는 자바 웹 어플리케이션 서버
  • 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어

분산 코디네이션

주키퍼 (Zookeeper)

  • 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 기술
  • 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리
  • 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안정성을 보장



스쿱 Sqoop

커넥터 Connector를 사용하여 RDBMS → HDFS 데이터 수집, OR HDFS → RDBMS 로 데이터를 보내는 대용량 데이터 전송 솔루션

NoSQL

대규모 데이터를 저장하기 위해 고정된 테이블 스키마가 없고 조인 연산X , 수평적 확장 가능 DBMS
주요 제품으로 HBase, Cassandra, MongoDB

HDFS (Hadoop Distributed File System)

수십 테라바이트 또는 페타바이트 이상 대용량 파일을 분산된 서버에 저장, 저장된 데이터를 빠르게 처리할 수 있게 하는 분산 파일 시스템

스크라이브

다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집, 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술



CAP 이론

분산 컴퓨팅 환경은 Availablity, Consistency, Partition Tolerance 3가지 특징을 갖고 있으며, 이 중 두 가지만 만족할 수 있다는 이론
NoSQL은 CAP 이론을 기반으로 하고 있다.

  • 일관성 Consistency
    모든 사용자에게 같은 시간에는 같은 데이터를 보여주어야 한다는 특성

  • 유효성 Availablity
    모든 클라이언트가 읽기 및 쓰기가 가능해야 한다는 특성
    하나의 노드에 장애가 일어나더라도 다른 노드에는 영향을 미치면 안 되는 특성

  • 분산 가능 Partition Tolerance
    물리적 네트워크 분산 환경에서 시스템이 원활하게 동작해야 한다는 특성
    네트워크 전송 중 데이터 손실 상황이 생겨도 시스템은 정상적으로 동작해야 한다는 특성




재현 데이터

  • 개념

    실제로 측정된 원본 자료 Real Data 를 활용하여 통계적 방법이나 기계학습 방법 등을 이용하여 새롭게 생성한 모의 데이터 Simulated Data 이다.

  • 특징
    원본 자료와 최대한 유사한 통계적 성질을 보이는 가상의 데이터를 생성하기 위해 개인정보의 특성을 분석, 새로운 데이터를 생성

  • 유형

완전 재현 데이터 Fully Synthetic Data

원본 자료의 속성(Lable; Featrue) 정보 모두를 재현 데이터로 생성
정보 보호 측면에서 가장 강력한 보안성

부분 재현 데이터 Partially Synthetic Data

모든 속성자료를 재현 데이터로 만들기가 현실적으로 어렵기 때문에 민감하지 않은 정보는 그대로 두고, 민감한 정보에 대해서만 재현 데이터로 대체한 데이터

복합 재현 데이터 Hybrid Synthetic Data

일부 변수들의 값을 재현 데이터로 생성 & 실제 변수를 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성

0개의 댓글