[ADsP 데이터분석 준전문가] Day 2

justwriteit.·2023년 2월 2일
0

ADsP.log

목록 보기
2/6
post-thumbnail

오늘은 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 의 p25~70을 공부했다. 내가 기억하려고 하는 부분만 적어본다.


[과목 #1] 2장 데이터의 가치와 미래

01 빅데이터의 이해

1. 빅데이터의 이해

[1] 빅데이터의 정의

(1) 일반적 정의 : 양적+질적의 개념 포함. 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 어려운 데이터셋의 집합을 의미.
(2) 가트너 정의 : 향상된 시사점과 더 나은 의사결정을 위해 사용되는 대용량, 고속 및 다양성의 특성을 가진 정보 자산.
(3) 매킨지 정의 : 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터.
(4) IDC 정의 : 대규모 데이터에서 낮은 비용으로 가치를 추출, 데이터의 초고속 수집과 발굴을 지원하도록 고안된 차세대 기술 및 아키텍처.
(5) 일본 노무라연구소 정의 : 데이터, 데이터 처리, 저장 및 분석기술에 의미 있는 정보 도출, 필요한 인재나 조직까지도 의미에 포함.
(6) 더그 래니의 정의 : 데이터의 양, 유형과 소스의 다양성, 수집과 처리 측면에서의 속도가 급격히 증가하면서 나타나는 현상.
(7) 마이어쇤베르크와 쿠키어의 정의 : 대용량 데이터를 활용해 작은 용량으로는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일.
(8) 한국데이터산업진흥원 정의 : 기존의 접근 방식으로는 얻을 수 없었던 통찰과 가치를 창출하는 모든 것

[2] 빅데이터의 특징

(1) 더그 래니의 3V - Volume(양), Variety(유형), Velocity(생성 및 처리 속도의 증가)

(2) 빅데이터의 새로운 특징 4V - Value(가치) 혹은 Veracity(정확성) 포함

2. 빅데이터의 출현 배경

[1] 빅데이터의 출현 배경

(1) 데이터의 양적 증가

  • 기술의 패러다임 시프트 현상으로 바라봐야 할것

(2) 산업계의 변화

  • '양질 전환의 법칙'(양적인 변화가 축적되면 질적인 변화도 이루어진다는 개념) 즉 정보가 지속적으로 축적되면서 거대한 데이터는 새로운 기술을 만나 새로운 가치를 창출 할 수 있는 변화의 상태가 된다는 것

(3) 학계의 변화

  • 거대한 데이터를 다루는 학문 분야가 늘어남

(4) 관련 기술의 발전

  • 특히 클라우드 컴퓨팅 (서버, 스토리지, 데이터베이스, 네트워킹, 소프트웨어, 분석, 인텔리전스 등의 컴퓨팅 서비스 제공)에서 빅데이터의 처리 비용을 낮추어 빅데이터 분서에 경제성을 제공함

[2] 빅데이터의 기능과 변화

(1) 빅데이터의 기능 (빅데이터에 거는 기대)

  • 산업혁명의 석탄, 철
  • 21세기 원유
  • 렌즈 (eg. Google's Ngram Viewer)
  • 플랫폼 (eg. 페이스북, 카카오톡)

(2) 빅데이터가 만들어내는 변화 (후-전-양-상)

  • 사전처리 >> 사후처리 : 가능한 많은 데이터를 모으고 다양한 방식으로 인사이트 발굴
  • 표본조사 >> 전수조사 : 데이터 처리 비용이 감소하면서 변화됨
  • 질 >> 양 :양이 증가할 수록 분석의 정확도 높아짐
  • 인과관계 >> 상관관계 : 특정 현상의 발생 가능성 포착 및 추천 가능

(3) 빅데이터의 등장에 따른 변화

  • 기술 변화
  • 인재와 조직의 변화

02 데이터의 가치와 미래

1. 빅데이터의 가치와 영향

[1] 빅데이터의 가치

(1) 빅데이터의 가치

  • 어떤 인사이트를 발굴하여 어떻게 활용할 것인지에 달렸다. 가치를 산정하는 것은 의미가 없는 일일 수도 있다. 중요한 것은 빅데이터를 통한 인사이트를 가치있게 만드는 과정 그 자체이다.

(2) 빅데이터 가치 산정의 어려움 (3가지 이유)

  • 데이터 활용 방식 : 누가, 언제, 어떻게 어디서 활용했는지 알 수 없게 됨
  • 가치 창출 방식 : 기존에 없던 새로운 가치 창출
  • 분석 기술의 발전 : 오늘의 가치 없는 데이터가 내일은 가치 있는 데이터가 될 수도 있음

[2] 빅데이터의 영향

(1) 빅데이터의 영향

  • 기업 : 소비자의 행동 분석, 시장 변동 예층 등
  • 정부 : 환경 탐색, 상황 분석, 미래 대응
  • 개인 : 스마트라이프로 변화됨

(2) 빅데이터가 가치를 만들어내는 5가지 방식 (맥킨지의 빅데이터 보고서, 2011)

  • 투명성 제고로 연구개발 및 관리 효율성 제고
  • 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
  • 고객 세분화 및 맞춤 서비스 제공
  • 알고리즘을 활용한 의사결정 보조 혹은 대체
  • 비즈니스 모델과 제품, 서비스의 혁신 등

2. 빅데이터와 비즈니스 모델

[1] 빅데이터 활용 사례

(1) 기업혁신 사례 : 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단 등
(2) 정부활용 사례 : 실시간 교통정보수집, 기후정보, 지질활동, 국가안전 확보활동, 의료와 교육개선에서의 활용방안 모색 등
(3) 개인활용 사례 : 정치인과 연예인의 SNS 활용 등

[빅데이터 경영혁신의 4단계]

#1 생산성 향상
#2 발견에 의한 문제 해결
#3 의사결정 향상
#4 새로운 고객가치와 비즈니스 창출

[미래의 빅데이터 활용에 필요한 3요소]

  • 데이터 : 모든 것의 데이터화
  • 기술 : 진화하는 알고리즘, 인공지능
  • 인력 : 데이터 사이언티스트, 알고리즈미스트

[2] 7가지 빅데이터 활용 기본 테크닉

(1) 연관규칙 학습 (Association Rule Learning)

  • 연관분석, 장바구니 분석이라고도 불리며 어떤 변인 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
  • eg. 장바구니 분석, 상품 추천

(2) 유형분석 (Classification Tree Analysis)

  • '이 사용자가 어떤 특성을 가진 집단에 속하는가'와 같은 범주를 찾아내는 방법
  • eg. 문서를 어떻게 분류할 것인가? 조직을 어떻게 여러 그룹으로 나눌 것인가?

(3) 유전 알고리즘 (Genetic Algorithms)

  • 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점전적으로 진화 시켜 나가는 방법
  • eg. 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?

(4) 기계학습=머신러닝 (Machine Learning)

  • 컴퓨터가 데이터로부터 규칙을 찾고 이러한 규칙을 활용해 '예측'하는 데 초점을 둔 방법
  • eg. 기존 시청 기록을 바탕으로 시청자가 보유한 영화중 어떤 영화를 가장 보고 싶어할까?, 스팸메일 필터링, 질병 진단 예측

(5) 회귀분석 (Regression Analysis)

  • 독립변수를 조작하면서 종속변수가 어떠헥 변하는지를 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법
  • eg. 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? 사용자의 만족도가 충성도에 어떤 영향을 미치는가?

(6) 감정분석 (Sentiment Analysis)

  • 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
  • 비정형 데이터 마이닝의 대표적인 기법 중 하나
  • eg. 새로운 환불 정책에 대한 고객의 평가는 어떤가?

(7) 소셜 네트워크 분석 (SNA; Social Network Analysis)

  • 사회 관계망 분석으로도 불림, SNS에서 유저사이의 팔로워 팔로잉 관계를 분석하여 영향력이 있는 사람 찾아냄. 마케팅이나 범죄수사에서 공범을 찾는 등 활용 가능.
  • eg. 이 사람이 어느 정도 영향력 있는 '인플루언서'인가? 특정인과 다른 사람이 몇 촌 정도의 관계인가?

    [소셜 네트워크 분석 요소]

    • 연결 중심성 : 하나의 점에 얼마나 많은 다른 점이 연결되어 있는지 나타내는 척도
    • 근접 중심성 : 노드 사이의 거리를 기반으로 측정한 척도
    • 매개 중심성 : 해당 노드의 위치를 파악하여 여향력 파악
    • 아이겐벡터 중심성 : 해당 노드와 다른 벡터의 중심성 및 가충치 활용하여 계산하는 방식, 해당 노드와 연결된 다른 노드들이 네트워크 내에서 얼마나 중요한지 파악하는 지표

3. 빅데이터의 위기 요인과 통제 방안

[1] 위기요인

(1) 사생활 침해

  • eg. 1984(조지오웰) '빅브라더', SNS에 여행 게시글을 올린 사용자를 대상으로 한 빈집털이 발생, 구글의 사용자 행동 패턴 예측

(2) 책임 원칙 훼손

  • 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 높아짐
  • eg. 영화 마이너리티 리포트, 신용카드 발급 여부 판단에 있어 불이익 발생, 범죄 발생 이전에 체포

(3) 데이터 오용

  • eg. 포드 자동차 발명 vs 더 빠른 말, 스티브잡스의 아이폰 vs 일반 전화기, 적군의 사망자 수로 전쟁의 승리를 예측하는 오류, 비행기 탑승 금지자 목록에 상원 의원이 포함

[2] 통제방안

(1) 사생활 침해의 통제 방안 : '동의'에서 '책임'으로

  • 개인정보 사용자의 '책임'으로 해결한다는 방안

(2) 책임 원칙 훼손의 통제 방안 : 결과 기반 책임 원칙 고수

  • '성향'이 아닌 '행동 결과'를 보고 처벌

(3) 알고리즘 접근 허용

  • 알고리즘을 이해하고 해석하여 사전에 피해자를 방지 (전문인력 - Algorithmist)

[개인정보 비식별 기술]

  • 데이터 속에서 특정 개인을 식별할 수 있는 요인을 숨기는 기술
  • 데이터 마스킹, 가명 처리, 총계 처리, 데이터 값 삭제(일부), 데이터 범주화 (범위제공)

[미연방거래위원회(FCT)의 소비자 프라이버시 보호 3대 권고사항]

(1) 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용
(2) 기업은 소비자에게 공유정보 선택 옵션을 제공
(3) 소비자에게 수집된 정보 내용 공개 및 접근권 부여

03 가치창조를 위한 데이터 사이언스와 전략 인사이트

1. 빅데이터 분석과 전략 인사이트

[1] 빅데이터 열풍과 회의론

(1) 빅데이터에 대한 관심과 기대

  • 많은 양의 데이터가 반드시 새로운 가치로 연결되는 것은 아니다
  • eg. 버텍스 사: 데이터의 양보다 데이터 분석 문화

(2) 빅데이터 회의론의 원인

  • 부정적 학습효과
  • 과대 포장

[2] 빅데이터 분석의 핵심은 'Big'이 아닌 '인사이트'

(1) '크기'가 아니라 '인사이트'

  • 걸림돌은 비용이 아닌 '분석적 방법과 성과에 대한 이해 부족'
  • 데이터의 양보다는 '데이터의 가치'가 핵심

(2) 전략적 인사이트의 중요성

  • 싸이월드 vs 페이스북 사례
  • 미국 항공사 데이터 분석 사례
    아메리칸 항공사우스웨스트 항공
    수익관리, 가격 최적화의 분석 접근법 사용, 3년만에 14억 달러의 수익을 올림단순최적화 모델을 통한 가격 책정과 운영
    초기에 비용은 일정 부분 절감했으나, 타 경쟁사들과 차별화하지 못하여 결국 수익 감소차별화된 경영전략으로 36년 연속흑자 기록

[3] 일차원적 분석 vs. 전략 도출을 위한 가치 기반 분석

(1) 일차원적 분석 (산업별)

산업일차원적 분석 애플리케이션
금융 서비스산용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석
에너지트레이딩, 공급/수요 예측
병원가격 책정, 고객 로열티, 수익 관리
정부사기탐지, 사례관리, 범죄방지, 수익 최적화
소매업판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화
제조업공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발
운송업일정 관리, 노선 배정, 수익 관리
헬스케어약품 거래, 예비 진단, 질병 관리
커뮤니케이션가격 계획 최적화, 고객 보유, 수요 예측, 생산 능력 계획, 네트워크 최적화, 고객 수익성 관리
서비스콜센터 직원 관리, 서비스-수익 사슬 관리
온라인웹 매트릭스, 사이트 설계, 고객 추천
모든 산업성과 관리

(2) 전략 도출을 위한 가치 기반 분석

  • 일차원적인 분석은 주로 부서 단위로 관리되기 때문에 비즈니스 성공에 핵심적인 역할을 기대하기는 어렵다. 일차적인 분석을 통해 분석 경험을 늘려가고 이후 범위를 넓혀 인사이트를 주는 가치 기반 분석 단계로 나아가야 한다.

2. 전략 인사이트 도출을 위해 필요한 역량

[1] 데이터 사이언스에 대한 이해와 역할

(1) 데이터 사이언스에 대한 이해

  • 데이터 사이언스 : 데이터로부터 의미 있는 정보를 추출해내는 학문
  • 통계학과 다른 점 : 통계학은 정형화된 데이터를 분석하지만 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 함

(2) 데이터 사이언스의 역할

  • 데이터 마이닝과 다른 점 : 데이터 마이닝은 주로 분석에 포커스를 두지만, 데이터 사이언스는 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정, 궁극적으로는 전략적 인사이트 도출까지 모두 포괄, 전략적 통찰을 추구하고 비즈니스 핵심 이슈에 답하여 사업의 성과를 견인해 나감
  • 중요한 핵심 역량 : 소통

[2] '데이터 사이언스'와 '데이터 사이언티스트'

(1) 데이터 사이언스 구성 요소 : Analytics, IT, 비즈니스 분석

(2) 데이터 사이언티스트에게 요구되는 역량

Hard SkillSoft Skill
빅데이터에 대한 이론적 지식통찰력 있는 분석
분석 기술에 대한 숙련설득력 있는 전달
다분야 간 협력

[가트너가 제시한 Data Scientist 요구 역량]

  • 데이터 관리 : 데이터에 대한 이해
  • 분석 모델링 : 분석론에 대한 지식
  • 비즈니스 분석 : 비즈니스 요소에 초점
  • 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정

[3] 데이터 사이언스 : 과학과 인문학의 교차로

(1) 전략과 인사이트 도출을 위한 인문학

  • 인문학에서 나오는 소프트 스킬을 많은 기업들이 요구함 (사고방식, 비즈니스 이슈에 대한 감각, 고객에 대한 공감 능력 등)

    [외부 환경에서 본 인문학의 열풍]

    외부환경변화
    컨버전스 → 디버전스단순 세계화 → 복잡 세계화
    생산 → 서비스제품생산 → 서비스
    생산 → 시장 창조기술 경쟁 → 무형 자산의 경쟁

(2) 인문학적 사고의 특성

  • 정량분석 + 인문학적 통찰 → 합리적 추론

    구분정보통찰
    과거무슨 일이 일어났는가?어떻게, 왜 일어났는가?
    현재무슨 일이 일어나고 있는가?차선 행동은 무엇인가?
    미래무슨 일이 일어날 것인가?최악 또는 최선의 상황은 무엇인가?
  • eg. 현재의 시용리스크 모델링 (인간의 행동적 관점, 상황적 관점)

3. 빅데이터 그리고 데이터 사이언스의 미래

[1] 가치 패러다임의 변화

(1) 가치 패러다임

  • paradigm : 어떤 한 시대 사람들의 견해나 사고를 근본적으로 규정하고 있는 프레임으로서의 인식의 체계를 의미하는 개념
  • paradigm shift : 시간의 흐름에 따라 다음 세대의 패러다임에 자리를 물려주고 떠나는 속성
  • 가치 paradigm : 경제와 산업의 원천에 있는 가치에 대한 패러다임을 의미

(2) 가치 패러다임의 변화

과거현재미래
DigitalizationConnectionAgency
디지털화연결에이전시
eg. 운영체제, 워드/파워포인트 등구글의 검색 알고리즘, 네이버의 콘텐츠

[2] 데이터 사이언스의 한계와 인문학

(1) 데이터 사이언스의 한계

  • 모든 분석은 가정에 근거, 실제 외부 요인은 계속해서 변화한다
  • 100% 완벽하지 않다

(2) 데이터 사이언티스트에게 요구되는 인문학

  • 모델의 능력에 대해 항상 의구심을 가지고, 가정과 현실의 불일치에 대해 끊임없이 고찰, 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 주시해야 한다

[빅데이터 Trend Keyword]

(1) 빅데이터와 인공지능
(2) 머신러닝 vs 딥러닝
(3) 빅데이터 플랫폼
(4) 하둡 Hadoop
(5) 하둡 에코시스템
(6) 데이터 레이크 Data Lake
(7) 마이데이터 Mydata
(8) 2020년 개정된 <개인정보보호법>
(9) 개인정보 비식별화
(10) 스마트 팩토리 Smart Factory
(11) 블록체인 Block Chain
(12) 메타버스 Metaverse


[출처]
https://datascience.aero/big-data-veracity-value/
https://www.researchgate.net/figure/The-4-Vs-big-data-properties-volume-variety-velocity-veracity-9_fig1_338516812
https://3months.tistory.com/508

profile
my records

0개의 댓글