빅데이터 분석 기사 필기
1️⃣ 빅데이터 분석 기획
가역/불가역 데이터
데이터의 근원에 따른 분류:
- 가역 데이터: 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터
- 불가역 데이터: 생산된 데이터의 원본으로 환원이 불가능한 데이터
| 가역 데이터 | 불가역 데이터 |
---|
(원본)환원성 | 가능(비가공 데이터) | 불가능(가공 데이터) |
(이력)추적성 | 가능 | 불가능 |
의존성 | 원본 데이터 그 자체 | 원본 데이터와 독립된 새 객체 |
갱신 가능 여부 | 원본 데이터 변경 시 변경사항 반영 가능 | 원본 데이터 변경 시 변경사항 반영 불가 |
원본과의 관계 | 1:1 | 1:N / N:1 / M:N |
처리 과정 | 탐색 | 결합 |
활용 분야 | 데이터 마트, 데이터 웨어하우스 | 데이터 전처리, 프로파일 구성 |
정략적/정성적 데이터
데이터의 구분:
- 정략적 데이터(Quantitative Data): 주로 숫자로 이루어진 데이터, 양적 데이터
ex) 객관식 설문조사...
- 정성적 데이터(Qualitative Data): 문자와 같은 텍스트로 구성되며 함축적 의미를 갖는 데이터, 질적 데이터
ex) 주관식 설문조사, 인터뷰...
| 정략적 데이터 | 정성적 데이터 |
---|
유형 | 정형 데이터, 반정형 데이터 | 비정형 데이터 |
특징 | 여러 요소의 결합으로 의미 부여 | 객체 하나가 함축된 의미 내포 |
관점 | 주로 객관적 내용 | 주로 주관적 내용 |
구성 | 수치나 기호... | 문자나 언어... |
형태 | 데이터베이스, 스프레드시트... | 웹 로그, 텍스트 파일... |
위치 | DBMS, 로컬 시스탬 내부... | 웹사이트, 모바일 플랫폼 외부... |
분석 | 통계 분석 시 용이 | 통계 분석 시 어려움 |
⭐️ 정형/반정형/비정형 데이터
데이터의 유형:
- 정형 데이터(Structured Data): 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터
- 반정형 데이터(Semi-structured Data): 데이터의 형식과 구조가 비교적 유연하고, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터
- 비정형 데이터(Unstructured Data): 구조가 정해지지 않은 대부분의 데이터
| 특징 | 연산여부 | 종류 |
---|
정형 데이터 | 정형화된 스키마를 가진 데이터 | 가능 | 관계형 데이터베이스(RDMS) 테이블... |
반정형 데이터 | 메타 구조를 갖는 데이터 | 불가능 | HTML, XML, JSON, RSS, RDF... |
비정형 데이터 | 일정한 구조가 없는 데이터 | 불가능 | 동영상, 이미지, 음성, 문서, 메일... |
(6회 기출)
다음 중 정형, 반정형, 비정형으로 구분하는 빅데이터 특징으로 옳은 것은?
다양성
내부/외부 데이터
데이터의 위치:
- 내부 데이터: 조직 내부의 서비스 시스템, 마케팅 관련 시스템 등으로부터 생성되는 데이터
- 내부 조직간 협의를 통해 데이터 수집
- 대부분 정형 데이터로 존재
- 데이터 담당자와 협의가 원활
- 비용 및 데이터 수집 난이도가 낮음
- 서비스의 수명 주기 관리 용이
- 외부 데이터: 다양한 소셜 데이터, 특정 기관 데이터, 공공기간 데이터...
- 외부 조직과 협약, 데이터 구매, 웹 상의 오픈 데이터를 통해 수집
- 대부분 반정형, 비정형 데이터로 존재
- 외부 데이터 담당자와 의사소통이 어려움
- 대부분 추가적인 데이터 가공 작업 필요
- 비용 및 데이터 수집 난이도가 높음
- 외부 환경에 대한 통제 어려움에 따른 서비스 관리정책 수립 필요
위치 | 분석가치 | 원천 시스템 | 예제 |
---|
내부 데이터 | 보통 | 서비스 시스템 | ERP, CRM, KMS, 포털, 인증/과금 시스템... |
| | 네트워크 및 서버 장비 | IDS 서버 장비 로그... |
| | 마케팅 데이터 | VOC 접수 데이터... |
외부 데이터 | 높음 | 소셜 데이터 | 제품 리뷰 커뮤니티... |
| | 특정 기관 데이터 | 정책 데이터... |
| | M2M(Machine to Machine) | 센서 데이터, 장비 발생 로그... |
| | LOD(Linked Open Data) | 경제, 의료, 과학.. 공공 데이터 |
데이터 확보 시 고려사항:
데이터의 목록과 기대효과 등을 작성하고, 편향되지 않고 충분한 양의 데이터를 확보해야 한다.
- 내부 데이터의 사용:
- 데이터 목록 작성(변수 명칭, 설명, 형태, 기간...)
- 법률이나 보안적 요소들을 확인하고, 개인정보일 경우 비식별 조치 방안 고려
- 다른 부서에 있는 경우 합의를 통해 데이터 공유 가능 여부 확인
- 실시간으로 수집하여 분석할 수 있도록 지원
- 외부 데이터의 사용:
- 데이터 목록을 데이터를 보유한 기업의 이름과 데이터 제공 방법까지 고려하여 작성(Open API, 복제...)
- 법률, 제도상 제약 없는지 검토
- 보유 기업으로부터 데이터 제공 가능여부와 구매 비용 협의...
- 일과 수집, 일정 주기로 수집등의 정책 필요
분석 기획의 특징(분류)
분석 대상과 방법에 따른 분류로 분석 주제와 방법에 대한 특성상 4가지 유형을 넘나들며 분석을 하고 결과를 도출하는 과정을 반복한다.
데이터 분석 주제 유형:

분석 과제 도출 방법:
- 하향식 접근 방식(Top-Down Approach): 문제가 먼저 주어지고 이에 대한 해법을 찾아가는 방식
- 솔루션 도출은 유효하지만 새로운 문제 탐색 어려움
- 복잡하고 다양한 환경에서 발생한 문제에는 부적합
- 상향식 접근 방식(Bottom-Up Approach): 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하는 방식
- 역으로 추적 가능
- 생각지도 못한 인사이트 도출 및 시행착오를 통해 개선 가능
- 하향식 접근 방식의 한계 극복
목표 시점에 따른 분류:
- 과제 중심적 접근(단기적 접근 방식):
- 당면한 과제를 빠르게 해결하기 위한 목적
- 명확한 해결을 위해 Quick-Win방식으로 분석
- 마스터 플랜 접근(중장기적 접근 방식):
- 지속적인 분석 문화를 내재화하기 위한 목적
- 전사적으로 장기적 관점에서 과제를 도출하여 수행
- 혼합 방식(분석 기획 시 적합):
- 마스터 플랜을 수립하고 장기적 관점에서 접근하는 것이 바람직함
- 분석의 가치를 증명하고 이해관계자들의 동의를 얻기 위해 빠른 과제 수행
⭐️ 분석 기획의 절차
비지니스 이해 및 범위 설정 ➡️ 프로젝트 정의 ➡️ 프로젝트 수행 계획 수립 ➡️ 프로젝트 위험 계획 수립
⭐️ 데이터 분석 단계:
- 도메인 이슈 도출
- 분석 모표 수립
- 프로젝트 계획 수립
- 보유 데이터 자산 확인
분석 마스터 플랜:
분석 과제를 수행함에 있어 그 과제의 목적이나 목표에 따라 전체적인 방향성을 제시하는 기본계획
- ⭐️ 분석 마스터 플랜 수립 절차:
- 일반적인 정보전략계획 방법론을 활용할 수 있으며, 데이터 분석 기획의 특성을 고려하여 수행
- 분석 과제들을 빠짐없이 정의
- 분석 과제의 중요도와 난이도 등을 고려하여 우선순위 결정
- 단기와 중장기로 나누어 분석 로드맵 수립
- 정보전략계획(ISP: Information Strategy Planning)
- 중장기 마스터 플랜을 수립하는 절차
- 조직 내/외부의 환경을 충분히 분석하여 새로운 기회나 문제점 도출
- 사용자의 요구사항을 확인하여 시스템 구축 우선순위 결정
로드맵 설정:
- 반복적인 정련과정을 통해 프로젝트의 완성도를 높임
- 데이터 수집 및 확보와 분석 데이터 준비 단계는 순차적으로 진행하고, 모델링 단계는 반복적으로 수행
⭐️ 분석 과제 우선순위 평가기준
IT프로젝트의 과제 우선순위 평가기준
평가관점 | 평가요소 |
---|
전략적 중요도 | 전략적 필요성 |
| 시급성 |
실행 용의성 | 투자 용의성 |
| 기술 용의성 |
⭐️ 데이터 분석 프로젝트의 과제 우선순위 평가기준
ROI 요소 | | 특징 | 내용 |
---|
투자비용요소(Investment) | 3V | Volume(데이터 크기) | 데이터 규모/양 |
| | Variety(데이터 형태) | 데이터 종류/유형 |
| | Velocity(데이터 속도) | 데이터 생성/처리 속도 |
비즈니스 효과(Return) | 5V | Value(가치) | 정확성, 시간성 관련... 분석 결과 활용/비즈니스 실행을 통한 획득 가치 |
- | | Veracity(신뢰성) | 노이즈, 오류 제거로 품질 향상 |
- | - | Validity(정확성) | 유효성, 질 높은 데이터 |
- | - | Volatility(휘발성) | 데이터가 의미있는 기간 |
기출:
(3회) 다음 중 재현자료(Synthetic Data)에 대한 설명으로 옳지 않은 것은? ( ④ )
① 실제로 측정된 데이터를 생성하는 모형이 존재한다고 가정하고 추정된 모형에서 새롭게 생성한 데이터이다.
② 모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않는다.
③ 베이지안 방법이나 기계학습 모형을 통해 재현자료를 생성할 수 있다.
④ 개인이 제공한 데이터가 아닌 임의 생성 데이터로 개인정보보호 관련 법규의 규제 제약이 있다.
(3회) 특정 기업이 가진 이용자 개인정보를 다른 기업에 제공하려면 이용자의 동의를 구해야하는데, 이때 다른 기업이 이용자에게 직접 동의를 구해 특징 기업에 개인정보 제공을 요청할 수 있다.
🖍️ 마이 데이터
(7회) 분석기획에서 우선순위 고려요소로 옳지 않은 것은?
🖍️ 분석 데이터 적용 수준
(4회) 분석 로드맵 설정 시 우선순위 고려해야 할 사항이 아닌 것은?
🖍️ 분석 데이터 적용
참고,
https://youtube.com/playlist?list=PL6i7rGeEmTvodx7Q2Ggu14Te2y8BXAoF1&si=A7s-IrQhRQCMQO5m