[빅데이터시스템설계] What is Big Data

Future·2024년 4월 24일
0

데이터? 정보?

이 두 단어는 종종 혼동된다. 둘은 같은 단어가 아니다.
데이터는 관찰과 실험 등을 통해 얻은 현상의 문서화된 결과이다. 한마디로 단순 사실이다.
정보는 데이터를 가공, 분석하여 특정한 의미를 부여한 지식이다.
예를 들면, 당일의 기온이 35도라 하자. 이 35도라는 것은 데이터이다. 이 데이터에 "덥다" 라는 의미를 부여하면 정보가 된다.

정형 데이터 vs 비정형 데이터

  • 정형 데이터 (Structured Data) : 형식이 고정된 데이터로, 테이블 형태로 구성된다.
    ex) RDBMS, 엑셀
  • 비정형 데이터 (Unstructured Data): 구조화되지 않은 형태의 데이터로써, 텍스트, 이미지, 비디오, 음성 등의 형태로 존재한다.

비정형 데이터가 급증하게된 배경

그래프와 같이 최근 들어 비정형 데이터가 급증하는 추세이다. 그 이유는

  • 하드웨어 성능 개선 (저장 용량은 커지고 비용은 낮아짐)
  • SNS의 발전

    정도가 있다.

빅데이터란?

빅데이터란 방대한 양의 비정형 데이터의 집합이다.

빅데이터의 4가지 특성 (4V)

  • Volume : 방대한 용량
  • Variety : 정형, 반정형, 비정형 데이터를 전부 포함한 다양한 데이터 형태를 포함한다.
  • Velocity : 신규 데이터가 계속해서 생성되지 않으면 데이터라 할 수 없다. 데이터의 생성, 수집, 처리 속도가 빨라야 하며 실시간으로 진행되어야 한다.
  • Veracity : 신뢰성. 정확하고 품질이 좋은 데이터여야 한다.

6V 일때 추가되는 두가지 특성

  • Visualization : 복잡한 대규모 데이터를 시각화하여 표현할 수 있다.
  • Value : 빅데이터 분석을 통해 비지니스에 궁극적인 가치를 창출할 수 있다.

빅데이터 분석

빅데이터 분석이란, 빅데이터를 수집, 저장, 처리하여 유의미한 정보를 도출하는 과정이다.
유의미한 정보란, 숨겨진 패턴, 알려지지 않은 상관관계, 시장 동향, 고객 선호도 등을 말한다.

빅데이터 분석의 장점

사기 행위를 예방할 수 있고, 비용을 절감하여 더 나은 의사결정을 이끌어낼 수 있다.

빅데이터 프레임워크


빅데이터 프레임워크란 빅데이터를 실시간으로 저장, 처리, 분석하는데 사용되는 프레임워크이다.

빅데이터 프레임워크가 갖추고 있어야 할 것들

  • Processing tremendous data : 대용량 데이터 처리
  • Real-time data processing : 실시간 데이터 처리
  • Low cost : 저비용
  • Fault Tolerance : 고장 허용. 데이터 분산 처리를 통해 일부 오류가 발생해도 기능에 문제 없이 동작해야 한다.

빅데이터 시스템을 설계하는 법

일단, Real-time data processing을 구축해야 한다. 지금은 SNS, IOT 등을 통해 많은 데이터(스트리밍 데이터)가 실시간으로 들어오기 때문에 여기에서 데이터 필터링, 클리닝 등을 진행하며 쓸모있는 데이터만 걸러야 한다.
또한, 배치 프로세싱과 Real-time processing을 모두 지원해야 한다.
Scale-out을 통해 Fault Tolerance를 보장할 수 있고, 비용을 절감할 수 있다.
Scale-up 서버에서는 비용이 기하급수적으로 증가하지만, Scale-out 서버에서는 비용이 선형적으로 증가한다.

profile
Record What I Learned

0개의 댓글