[Adsp] 1-3. 빅데이터

Mini·2022년 8월 8일
0

ADsP

목록 보기
3/17

(1) 빅데이터란?

  • 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 어려운 데이터셋의 집합

(2) 빅데이터의 특징

  • 더그래니의 정의 (3V)
    • 빅데이터는 데이터의 양 (volume), 데이터의 유형과 소스의 다양성 (Variety), 데이터의 수집과 처리측면에서의 속도 (Velocity) 가 급격히 증가하면서 나타나는 현상
  • 새로운 특징 (4V)
    • value (가치), veracity (정확성), visualization (시각화), variability (가변성)

(3) 빅데이터의 출현 배경

  • <1> 데이터의 양적 증가
  • <2> 산업계의 변화
    • 양질 전환의 법칙 -> 양적인 변화가 축적되면 질적인 변화도 이루어짐.
  • <3> 학계의 변화
  • <4> 관련 기술의 발전
    • 클라우드 컴퓨팅 - 빅데이터의 처리 비용을 획기적으로 낮춤

(4) 빅데이터의 기능

  • 빅데이터는~
    • <1> 산업혁명의 석탄. 철 - 제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 예상
    • <2> 21세기 원유 - 필요한 정보를 제공해 산업 전반의 생산성 향상 시킴
    • <3> 렌즈
    • <4> 플랫폼 - 공동 활용의 목적으로 구축된 구조물

(5) 빅데이터가 만들어 내는 변화

  • <1> 사전처리 -> 사후 처리
  • <2> 질 ->
  • <3> 표본조사 -> 전수 조사
  • <4> 인과관계 -> 상관관계

(6) 미래의 빅데이터 활용에 필요한 3요소

  • <1> 데이터 - 모든 것의 데이터화
  • <2> 기술 - 진화하는 알고리즘, 인공지능
  • <3> 인력 - 데이터 사이언티스트, 알고리즈미스트
  • 알고리즈미스트 - 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업으로 이들이 만들어 낸 알고리즘을 해석하여 피해를 입은 사람을 구제하는 전문가

(7) 7가지 빅데이터 활용 기본 테크닉

  • (1) 연관규칙 학습 (장바구니 분석) -> 어떤 변인 간에 주목할 만한 상관 관계가 있는지를 찾아내는 방법
  • (2) 유형 분석 -> 새로운 사건이 속할 범주를 찾아내는 방법
    • '이 사용자가 어떤 특성을 가진 집단에 속하는가?'
    • cf ) 분류 - 지도학습, 군집 - 비지도학습
  • (3) 유전 알고리즘 (효율, 최적화)-> 최적화가 필요한 문제의 해결책을 자연선택. 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법
  • (4) 기계학습 = 머신러닝 -> 컴퓨터가 데이터로부터 규칙을 찾고 이러한 규칙을 활용해 '예측'하는 데 초점을 둔 방법
  • (5) 회귀분석 -> 독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법
    • ex) '상품가격은 매출에 어떤 영향을 미치는가?'
  • (6) 감정분석 -> 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법 / 비정형 데이터 마이닝의 대표적인 기법 중 하나
    • ex) 호텔에서 고객의 후기를 분석하여 고객의 니즈를 찾아낸다.
  • (7) 소셜 네트워크 분석 (SNA ; Social Network Analysis)
    • 사회 관계망 분석, SNS 같은 온라인 공간에서 유저 사이의 팔로워, 팔로잉 관계를 분석하여 영향력이 있는 사람을 찾아내어, 기업의 마케팅이나 범죄 수사에서 공범을 찾는 등 다양한 분야에서 활용 가능
    • 오피니언 리더 (영향력 있는 사람)을 찾아낼 수 있음, 고객간 소셜 관계 파악 가능

(8) 빅데이터의 위기 요인과 통제 방안

  • <1> 사생활 침해 (구글의 사용자 행동 패턴 예측) -> 동의에서 책임으로 (개인정보 사용자의 책임)
  • <2> 책임 원칙 훼손 (분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 높아짐 / 범죄 발생 이전에 체포)-> 결과 기반 책임 원칙 고수 (행동 결과를 보고 처벌)
  • <3> 데이터 오용 -> 알고리즘 접근 허용 (알고리즈미스트가 부상, 객관적 인증방안 도입

(9) 개인정보 비식별 기술

  • <1> 데이터 마스킹 : 기존 형식을 유지 한 채 식별할 수 없는 임의의 값(혹은 기호)으로 대체한다.
  • <2> 가명 처리 : 데이터의 값을 다른 값 (식별할 수 없는 값)으로 변경한다.
  • <3> 총계 처리 : 각각의 데이터 값이 아닌 전체 데이터에 대한 총합 또는 평균 으로 데이터를 보여준다.
  • <4> 데이터 범주화 (두리뭉실) : 데이터의 값을 범주화하여 특정값이 아닌 범위를 제공한다.

(10) 데이터 사이언스

  • 데이터로부터 의미있는 정보를 추출해내는 학문, 다양한 데이터의 데이터를 대상으로 한다.

(11) 데이터 사이언티스트에게 요구되는 역량

  • 하드 스킬 : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
  • 소프트 스킬 : 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판), 설득력 있는 전달 (스토리텔링, 비주얼라이제이션), 다분야 간 협력 (커뮤니케이션) / 강력한 호기심이 핵심적 but 필수요소 x
  • 머신러닝, 모델링, dadta 기술력
    • 가트너가 제시한 데이터 사이언티스트 요구 역량
      • (1) 데이터 관리 : 데이터에 대한 이해
      • (2) 분석 모델링 : 분석론에 대한 지식
      • (3) 비지니스 분석 : 비지니스 요서에 초점
      • (4) 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정

(12) 데이터화의 대표적인 예 - 사물 인터넷

0개의 댓글