[ADsP 정리] 1. 데이터의 이해

김성욱·2023년 4월 30일
0

ADsP

목록 보기
1/6

ADsP는 세 가지 과목에 대한 필기시험으로 취득할 수 있는 자격이다.

  1. 데이터 이해 - 10문제
  2. 데이터 분석 기획 - 10문제
  3. 데이터 분석 - 30문제

다른 시험과 마찬가지로 60% 통과 , 과목별 40% 과락이 있다.

이 문서는 시험 전 참고 자료로 활용할 계획이다.

1장 데이터의 이해

1.1 데이터와 정보

데이터 -> 추론과 추정의 근거를 이루는 사실

데이터의 특성

존재적 특성 -> 객관적 사실
당위적 특성 -> 추론/추정을 위한 근거

데이터의 종류

정성적 데이터 -> 매출의 증가와 같은 분석에 비용이 소모되는 데이터
<언어 , 문자>

정량적 데이터 -> 나이, 몸무게, 키와 같은 정형화된 데이터
<수치>

암묵지와 형식지

데이터는 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함.

암묵지 -> 자전거 타기와 같은 남에게 공유하기 어려운 지식
형식지 -> 교과서, 사용법, 공식 문서 등 형상화된 지식

공통화-표출화-연결화-내면화

DIKW( Data-Information-Knowledge-Wisdom )

데이터 - 객관적인 사실
EX) A의 영업이익은 100억, B의 영업이익은 150억이고 매출은 500억으로 같다.
정보 - 데이터를 통해 도출된 의미
EX) B의 영업이익 비율이 높다.
지식 - 정보를 통해 고유의 지식으로 내재화된 것
EX) B에게 투자하기로 결정한다.
지혜 - 지식의 축적 + 아이디어
EX) 동일 매출에 대해 영업이익이 높으면 주가 상승을 예측할 수 있다고 판단한다.

1.2 데이터베이스 정의와 특징

데이터베이스의 정의

1차 개념확대 -> 정형 데이터 관리수단으로서의 데이터베이스
2차 개념확대 -> 비정형 데이터를 포함

데이터베이스의 특징

통합된 데이터 - 데이터의 비중복성
저장된 데이터 - 저장 매체에 저장되는 것을 의미
공용 데이터 - 데이터를 공동으로 이용
변화되는 데이터 - 데이터베이스는 변화하면서도 현재의 상태를 나타냄

이외에도 정보의 축적 및 전달, 정보 이용, 정보 관리, 정보기술 발전, 경제/산업 측면에서 특징이 있다.

1.3 데이터베이스의 활용

OLTP , OLAP

OLTP On-Line Transaction Processing

DB-Host-clients

다수의 클라이언트들이 호스트에게 요청하면, 호스트가 DB에 접근해서 값을 처리하는 형태 , 데이터 갱신 위주

OLAP On-Line Analytical Processing

정보 위주의 분석 처리, 데이터 조회 위주

CRM , SCM

CRM Customer Relationship Managememnt
고객관계관리라는 뜻으로 고객과 관련된 자료를 통합하고 분석하여
마케팅 활동을 계획/지원/평가

SCM Supply Chain Management
공급망 관리, 공급망 단계를 최적화해 수요 충족

분야별 데이터베이스

제조 ERP -> SRM , RTE
금융 DW(Data Warehouse) , EDW
유통 CRM , SCM

세부 설명

ERP - 전사적 자원관리 , 경영자원을 하나의 시스템으로 통합
BI - 데이터를 분석해 의사결정에 활용하는 프로세스
RTE - ERP, SCM, CRM에서 더 발전하여 회사 전 부문의 정보를 하나로 통합

사회기반구조로서의 데이터베이스

EDI - 무역에 필요한 서류를 표준화된 양식을 통해 전자적 신호로 바꿔 전송
VAN - 부가가치통신망, 부가가치가 높은 서비스를 제공
CALS - 제품의 라이프 사이클 전반에 관련된 데이터를 통합 / 공유 / 교환

2장 데이터의 가치와 미래

2.1 빅데이터의 이해

빅데이터의 정의

좁은 범위 - 데이터 자체의 특성 변화에 초점을 맞춘 3V
중간 범위 - 처리, 분석 기술적 변화 포함 ( 클라우드 컴퓨팅 )
넓은 범위 - 인재, 조직 변화 ( Data Scientist )

3V

Volume - 데이터의 규모
Variety - 데이터의 다양성 ( 비정형 데이터 )
Velocity - 데이터의 수집과 처리의 속도

Value(4V) , Veractiy/Validity/Volatility (7V)

빅데이터의 출현 배경

산업계 - 데이터 축적을 통해 데이터에 숨어있는 가치를 발굴
학계 - 통계 도구들 및 모델 발전
기술 - 고성능 컴퓨터, 클라우드 컴퓨팅 등의 발전

빅데이터의 비유

  • 산업혁명의 석탄,철 - 혁명적 변화
  • 21세기의 원유 - 새로운 범주의 산업
  • 렌즈 - 현미경의 생물학 발전
  • 플랫폼 - 서드파티에 활용되면서 플랫폼으로 역할

과거와 현재의 차이점

  • 사전처리 -> 사후처리

이전에는 사전처리를 통해 유의미한 데이터만 활용하는 것이 중요했으나, 빅데이터는 대량의 데이터에서 의미있는 정보를 찾는다.

  • 표본조사 -> 전수조사

Sampling 대신 전수조사를 통해 의미를 찾는다.

  • 질 -> 양

데이터의 질보다는 양을 더 중요하게 생각한다.

  • 인과관계 -> 상관관계

예전 데이터로는 인과관계를 분석했으나, 빅데이터의 상관관계 분석이 더 효과적이다.

2.2 빅데이터의 가치와 영향

가치 산정의 어려움

빅데이터는 새로운 가치를 창출하고, 누가 활용할지 알 수 없고, 새로운 분석기법으로 다른 가치를 만들어낼 수 있기 때문에 가치 산정이 어렵다.

영향

  • 기업

새로운 사업을 발굴하거나 비즈니스 모델을 개선

  • 정부

사회 변화를 추정, 관련 정보 추출

  • 개인

데이터 분석 비용의 하락을 통해 개인도 빅데이터를 활용

2.3 비즈니스 모델

기본 기술

  • 연관 규칙 학습
  • 유형분석(Clustering)
  • 유전자 알고리즘
  • 기계학습
  • 회귀분석
  • 감정분석
  • 소셜네트워크분석

2.4 위기 요인과 통제 방안

위험 요소

  • 사생활 침해
  • 책임 원칙 훼손 ( 예측 모델을 통한 대출 거절 / 입건 )
  • 데이터 오용

통제 방안

  • 개인정보 제공자의 동의 -> 개인정보 사용자의 책임
  • 책임 원칙 고수
  • 알고리즘 접근 허용

2.5 미래의 빅데이터

기본 3요소

데이터 - 모든 것의 데이터화
기술 - 진화하는 모델 , 알고리즘
인력 - 데이터 사이언티스트

3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트

3.2 전략 인사이트 도출을 위한 필요 역량

데이터 사이언스의 영역

  • 분석적 영역
    수학, 머신러닝, 모델링 등

  • 데이터 처리와 관련된 IT 영역
    데이터 엔지니어링, 프로그래밍 등

  • 비즈니스 컨설팅 영역
    커뮤니케이션, 스토리텔링 등

요구 역량

  1. 빅데이터에 대한 이론적 지식
  2. 분석 기술에 대한 숙련
  3. 통찰력 있는 분석
  4. 설득력 있는 전달
  5. 다분야 간 협력

3.3 빅데이터 그리고 데이터 사이언스의 미래

데이터 사이언스의 한계

  • 분석과정에서 가정 등 인간의 해석이 개입되는 단계가 존재한다.
  • 분석결과를 보고 사람에 따라 다른 해석을 한다.
  • 모든 분석은 가정에 근거한다.
profile
someone

0개의 댓글