[ADsP] 데이터이해 - 데이터의 가치와 미래

박진우·2022년 6월 15일
0

ADsP

목록 보기
2/16

💡 빅데이터의 이해

빅데이터란❓

빅데이터(Big data) : 큰(big) 데이터

  • 단순히 용량만 방대한 것이 아니라 복잡성도 증가해 기존 데이터 처리 애플리케이션, 관리 툴(tool)로는 다루기 어려운 데이터세트의 집합(collection of data sets)

  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집ㆍ발굴ㆍ분석을 지원하도록 고안된 차세대 기술 및 아키텍처

  • 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰가치를 창출하는 새로운 방식


◽ 빅데이터 정의의 범주

◾ 데이터 변화(3V)

3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위 의 정의

  • Volume (양) : 데이터의 규모 측면

  • Variety (다양성) : 데이터의 유형소스 측면

  • Velocity (속도) : 데이터의 수집 처리 측면


◾ 기술 변화

데이터 자체 뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위 의 정의


  • 새로운 데이터 처리, 저장, 분석 기술 및 아키텍처

  • 클라우드 컴퓨팅 활용


◾ 인재, 조직 변화

인재, 조직 변화까지 포함해 빅데이터를 넓은 관점 으로 정의


  • Data Scientist 같은 새로운 인재 필요

  • 데이터 중심 조직으로의 변화





◽ 빅데이터의 출현 배경

빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람조직 차원에서 일어나는 변화를 말한다.


◾ 산업계의 환경 변화

  • 고객데이터 축적(양질 전환 법칙)

    • 기업들이 보유한 데이터가 '거대한 가치 창출이 가능할 만큼 충분한 규모에 도달했다.

◾학계의 환경 변화

  • 빅데이터를 다루는 학문 분야의 증가

    • 빅데이터 분야에 필요한 기술 아키텍처 및 통계 도구들의 지속적 발전했다.

◾관련 기술의 발전

  • 디지털화의 급진전, 저장 기술의 발전과 가격 하락

    • 무어의 법칙보다 빠르게 반감하고 있는 데이터 저장비용
  • 클라우드 컴퓨팅 보편화 등

    • 클라우드 분산 병렬처리 컴퓨팅은 대용량 데이터 처리 비용을 맵리듀스(MapReduce)와 같은 혁신적 방식을 통해 획기적으로 줄였다.

      맵리듀스(MapReduce):
      HDFS에 저장된 파일을 분산 배치 분석을 할 수 있게 도와주는 프레임워크.

      개발자는 맵리듀스 프로그래밍 모델에 맞게 애플리케이션을 구현하고, 데이터 전송, 분산 처리, 내고장성 등의 복잡한 처리는 맵리듀스 프레임워크자동으로 처리해준다.

개별 기업의 고객 데이터 축척 및 활용 증가, 인터넷 확산, 저장 기술의 발전과 가격 하락, 모바일 시대의 도래와 스마트 단말의 보급, 클라우드 컴퓨팅 기술 발전, SNS사물 네트워크(IoT) 확산 등이 맞물려 데이터 생산이 폭발적으로 증가하면서 대세는 빅데이터 시대라고 할 수 있다.



◽ 빅데이터의 출현에 따른 변화

  • 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출. 사업방식, 시장, 사회, 정부 등에서 변화와 혁신을 주도한다.

  • 사용자 로그(log) 정보에 대한 프로파일링이 이루어지기 시작하면서 아이덴티티가 뚜렷해지고 사용자와 광고를 매칭하는 정확도도 향상 한다.

    로그(log)❓ :로그(log)란 정보처리시스템에서 처리되는 정보들이 저장되는 기록을 말한다. 보통 파일이나 데이터베이스 형태로 기록된다.



◽ 빅데이터에 거는 기대를 잘 표현한 비유

◾산업혁명의 석탄, 철

  • 빅데이터는 차세대 산업혁명에서 석탄 역할을 할 것으로 기대된다. 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회·경제·문화·생활 전반에 혁명적 변화를 가져올 것으로 기대된다.

◾21세기의 원유

  • 빅데이터는 21세기의 원유에 비유된다.
    우리가 살고 있는 사회 저변을 떠받치는 에너지원인 원유처럼 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.


◾렌즈

  • 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다.
    Ex) 구글의 Ngram Viewer


◾ 플랫폼

  • 빅데이터는 플랫폼 역할을 할 것으로 기대된다. 최근에는 다양한 서드파티 비즈니스에 빅데이터가 활용되면서 플랫폼 역할을 할 것으로 전망한다.

  • 차세대 산업 혁신에 꼭 필요한 요소이며,차세대 산업혁신에서 원재료 역할을 하면서 그 재료부터 가치를 추출하는 기법까지 아우르는 개념으로 폭넓게 쓰이고 일상생활 깊이 침투할 것 이다.


◽빅데이터가 만들어 내는 본질적인 변화

  • 사전처리➡️ 사후처리
    필요한 정보만 수집하고 필요하지 않은 정보는 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.

  • 표본조사➡️ 전수조사
    표본을 조사하는 기존의 지식 발견 방식이 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 인해 전수조사로 변화하게 된다. 이에 따라 샘플링이 주지 못하는 패턴 , 정보 를 찾을 수 있게 된다.

  • ➡️
    데이터가 지속적으로 추가될 때 양질의 정보가 오류보다 많아져 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 변화된다.

  • 인과관계➡️ 상관관계
    상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.





💡 빅데이터의 가치와 영향

◽ 빅데이터의 가치

빅데이터 시대에서는 특정 데이터의 가치를 측정하는 것이 쉽지 않다. 그 이유는 아래와 같다.


◾데이터 활용 방식

  • 재사용, 재조합(mashup), 다목적용 데이터 개발 등이 일반화되며 특정 데이터를 언제,어디서,누가 활용할지 알 수 없다.

  • 데이터의 창의적 조합은 기존에 풀 수 없는 문제를 해결하는데 도움을 준다.

  • 다용도 목적으로 생산되는 데이터로 인해 가치 측정이 어렵다.


◾새로운 가치 창출

  • 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치 측정이 어렵다.

  • 새로운 유형의 데이터가 어떠한 영향을 미칠지 예측하고 평가하기 힘들다.


◾분석 기술 발전

  • 인터넷 댓글 등 예전에는 분석 비용이 높아 분석할 수 없던 데이터를 저렴한 비용에 분석하면서 점점 그 활용도가 증가한다.

  • 지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있다.




◽ 빅데이터의 영향

빅데이터가 미치는 영향
분 야 영 향 내 용
기 업 혁신, 경쟁력제고, 생산성향상 ▪️ 혁신 : 소비자의 행동 분석, 시장 예측 등을 통해 비즈니스 모델을 혁신하고 신산업 발굴

▪️ 경쟁력 제고 : 원가절감, 제품 차별화, 투명성 제고 등에 활용하여 강한 경쟁력 확보

▪️ 생산성 향상 : 기업의 운용 효율성 향상으로 산업 및 국가 전체의 생산성 향상

정 부 환경 탐색, 상황분석, 미래대응 ▪️ 환경 탐색 : 기상, 인구이동, 통계 등을 수집해 사회 변화를 추정하고 재해 정보를 추출한다.

▪️ 상황 분석 : 수집된 데이터를 분석하여 의제 도출한다.

▪️ 미래 대응 : 도출된 의제에 대한 법제도, 미래 성장 전략, 국가 안보 등의 대응 방안 획득한다.
개 인 목적에 따른 활용 개인은 빅데이터를 서비스하는 기업의 출현으로 비용이 지속적으로 하락하여 정치인이나 대중 가수 등이 인지도 향상에 빅데이터를 활용 한다.
생활 전반의 스마트화




💡 비즈니스 모델

◽빅데이터 활용 사례

◾기업

  • 구글
    • 실시간 자동 번역시스템
    • 사용자의 로그 데이터를 활용하여 기존의 페이지랭크(PageRank) 알고리즘 혁신

  • 윌마트
    • 소셜 미디어를 통해 고객 소비 패턴을 분석하는 윌마트 랩

  • Zara
    • 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측한다.
    • 질병의 예후 진단 및 처방에 빅데이터를 이용, IBM의 왓슨과 같은 인공지능도 활용하기 시작했다.


◾정부

  • 환경 탐색

    • 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스를 위한 모니터링 등
  • 상황 분석

    • 소셜 미디어, CCTV, 통화기록, 문자 통화 내역 등의 모니터링과 분석 결과를 국가안전 확보 활동에 활용
  • 미래 대응

    • 의료와 교육 개선을 위한 빅데이터 활용

◾개인

  • 정치인

    • 사회관계망 분석을 통해 유세 지역 선정, 유권자에게 영향을 줄 수 있는 선거 홍보 내용 선정
  • 가수

    • 팬들의 음악 청취 기록을 분석하여 공연의 노래 선곡


◽빅데이터 활용 기본 테크닉

테크닉 내용 예시
연관규칙학습(Association rule learning) 변인들 간에 주목할 만한
상관관계가 있는지를 찾아내는 방법
커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
유형분석(Classification tree analysis) 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전자 알고리즘(Genetic algorithms) 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 ( 적자 생존 ) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
기계학습 (Machine learning) 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 방법 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?
회귀분석 (Regression analysis) 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? ( 인과관계 )

사용자의 만족도가 충성도에 어떤 영향을 미치는가?

이웃들과 그 규모가 집값에 어떤 영향을 미치는가?
감정분석 (Sentiment analysis) 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 ( 트위터 형용사 분석) 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜네트워크분석(Social network analysis)
(사회관계망분석)
특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용
( SNA 고객들 소셜 관계 파악 )
고객들 간 관계망은 어떻게 구성되어 있나?
특정인과 다른 사람이 몇 촌 정도의 관계인가?


💡 위기요인과 통제방안

◽ 빅데이터 시대의 위기 요인과 통제 방안

사생활 침해

데이터를 목적 외에 사용할 경우 발생
동의➡️책임

일일이 개인의 동의를 받는 것 보다 침해한 사람에게 책임을 묻는다.
책임 원칙 훼손

예측알고리즘에 대한 희생 , 원리 회손
결과 기반 책임 원칙 고수

예측 자료에 의한 불이익 최소화
데이터 오용

정확도가 항상 맞을 수는 없다.
알고리즘 접근 허용

혼자만하지말고 공개해서 오용을 줄인다.


💡 미래의 빅데이터

◽ 빅데이터 활용에 필요한 기본 3요소

◾데이터

  • 사물인터넷, 웨어러블 단말, CCTV, 자동차 등 모든 것의 데이터화

  • 데이터에 의해 많은 기업들이 핵심 비즈니스 모델을 제조업에서 서비스업으로 전환

◾기술

  • 빅데이터 분석 알고리즘의 빠른 진화 속도

    ➡️ 데이터 양의 증가에 따라 알고리즘 정확도가 증가하는 일반적 경향

  • 인공지능의 발달

    ➡️ 기존의 데이터 분석법으로 처리가 불가능할 만큼 거대한 규모의 빅데이터 처리에 필수 불가결한 기술로 부상


◾인력

  • 데이터 사이언티스트와 알고리즈미스트의 역할이 중요할 것으로 전망

    ➡️ 데이터 사이언티스트 : 빅데이터에 대한 지식과 분석 기술을 바탕으로 인사이트를 도출하고, 조직의 전략 방향 제시에 활용할 줄 아는 기획자

  • 데이터 사이언티스트의 역량과 조건

➡️ 알고리즈미스트 : 비즈니스 전반에 대한 이해와 알고리즘 해석 능력을 통해 알고리즘에 의해 부당하게 피해를 입은 사람 들을 구제하는 전문직 종사자


본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한]
[데이터 분석 전문가 가이드, 2019년 2월 8일 개정]에 근거한 것임을 알립니다.

0개의 댓글