BigData
Data Driven Organization
- 데이터 중심 조직
- 데이터를 중심으로 업무 진행하는 부서를 의미
과정
- 가설 수립
- 데이터 수집
- 데이터 분석
- 결과 평가
역사
ex) 알렉산드리아 도서관
Pinakes
- 방대한 양의 정보를 효과적으로 다루기 위해 도서관의 책을 정보에 따라 카테고리 별로 분류
- indexing이라 생각하면 된다
세대별 과정
1세대
2세대
- Web 등을 포함해 Data 규모의 팽창
- 비정형도 가세
3세대
구성
- 5V라 불리우며 혁신적인 결과를 창출하기 위해선 Veracity, Value 두 가지에 무게를 두는 것이 중요
Volume
Velocity
- 대규모 데이터 처리 속도
- batch, streaming
Variety
- 다양성
- 다양한 형태의 Data
- 정, 비정, 반정형 데이터
정형
비정형
반정형
- 고정된 형식 X
- 사진, 영상, SNS, 데이터 등
Veracity
Value
단위
Bit
< Nibble
< Byte
= 1 letter
< Megabyte
, book
< Gigabyte
= 1600 books
< Terabyte
= 1,600,000 books
< Petabyte
= 160,000,000 books
< Exabyte
= 1,600,000,000,000
참고
- 2012 -> 2017, 인터넷 유저 점점 증가
- 이는 Data의 증가를 의미하며 효율적인 Data 사용의 필요성 증대되는 현상 초래
- 2017년의 경우 전 세계 인구 중 40%정도의 유저 확보
- Hbase도 BigData Platform 중에 하나
- 전세계 시장 점유율 : snowflow > ionformatica > hadoop
- 22년까지 한국의 빅데이터 시장가치 계속해서 증가