[Data] BigData?

Ik·2023년 1월 2일
0

Data

목록 보기
26/34

BigData

  • 수많은 분야의 데이터로 이뤄진 거대한 Data Set

  • 시스템에서 정보를 추출해 데이터를 분석하는 과정

  • 분석 방법을 다루는 특정 분야



Data Driven Organization

  • 데이터 중심 조직
  • 데이터를 중심으로 업무 진행하는 부서를 의미

과정

  1. 가설 수립
  2. 데이터 수집
  3. 데이터 분석
  4. 결과 평가



역사

ex) 알렉산드리아 도서관

Pinakes

  • 방대한 양의 정보를 효과적으로 다루기 위해 도서관의 책을 정보에 따라 카테고리 별로 분류
  • indexing이라 생각하면 된다

세대별 과정

1세대

  • 정형 데이터
  • RDB, DW

2세대

  • Web 등을 포함해 Data 규모의 팽창
  • 비정형도 가세

3세대

  • 모바일, IoT 등 위치기반 Data들 가세



구성

  • 5V라 불리우며 혁신적인 결과를 창출하기 위해선 Veracity, Value 두 가지에 무게를 두는 것이 중요

Volume

  • 데이터 규모

Velocity

  • 대규모 데이터 처리 속도
  • batch, streaming

Variety

  • 다양성
  • 다양한 형태의 Data
  • 정, 비정, 반정형 데이터

정형

  • RDB, CSV 등

비정형

  • 고정된 필드는 아니지만 스키마 존재

반정형

  • 고정된 형식 X
  • 사진, 영상, SNS, 데이터 등

Veracity

  • 정확성
  • 데이터의 품질

Value

  • 가치



단위

Bit < Nibble < Byte = 1 letter < Megabyte, book < Gigabyte = 1600 books < Terabyte = 1,600,000 books < Petabyte = 160,000,000 books < Exabyte = 1,600,000,000,000

참고

  • 2012 -> 2017, 인터넷 유저 점점 증가
    • 이는 Data의 증가를 의미하며 효율적인 Data 사용의 필요성 증대되는 현상 초래
  • 2017년의 경우 전 세계 인구 중 40%정도의 유저 확보

  • Hbase도 BigData Platform 중에 하나

  • 전세계 시장 점유율 : snowflow > ionformatica > hadoop

  • 22년까지 한국의 빅데이터 시장가치 계속해서 증가

0개의 댓글