빅데이터의 정의 및 특징

매일 공부(ML)·2022년 2월 15일
0

빅데이터

*기본정의

기존 데이터베이스 시스템으로 할 수 있는 용량을 넘어선 데이터이고, 복잡성 또한 증가하게 되어서 기존의 데이터 처리 툴로 다루기 어려운 데이터셋을 지칭합니다.


*기술적 정의

기술적인 측면에서 빅데이터를 보면, 빅데이터를 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐라 보고 있습니다.


*규모적 정의

규모적 측면에서 빅데이터는 일반적인 데이터베이스를 관리하는 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터라고 보고 있습니다.

*방법적 정의

방법적인 측면에서 보면 빅데이터를 당초 수십, 수천 테라바이트에 달하는 거대한 데이터 집합 자체만을 지칭하였으나, 점차 관련 도구, 플랫폼, 분석기법까지 포괄하게 되었다는 것이지요.


학자별 빅데이터 정의

*가트너(3V: Volume, Variety, Velocity), SAS

먼저 볼륨은 데이터 규모가 매우 커졌다는 것을 의미합니다.

또한 버라이어티는 로그기록, 소셜, 위치정보 등 데이터 종류의 증가로 텍스트 외 멀티미디어 등 비정형화된 데이터의 유형이 다양화되었다는 것을 의미합니다.

벨로시티는 구조화되지 않은 데이터, 데이터 저장방식의 차이, 중복 문제 등 데이터 종류가 확대되고 외부 데이터의 활동 등으로 관리대상이 증가됨으로써 점차적으로 데이터 관리 및 처리가 복잡해 지고 심화되어서 새로운 처리기법 및 관리기법이 요구되는 상황을 의미합니다.

반면, Velocity는 센서나 모니터링 등 사물정보, 스트리밍 정보 등 실시간성 정보가 증가하고 있습니다.

이러한 실시간성으로 인한 데이터 생성, 이동과 유통의 속도가 증가하고 있어, 대규모 데이터 처리 및 가치 있는 실시간성 정보활용을 위해 데이터 처리 및 분석 속도가 매우 중요하게 되었음을 말합니다.

그리고 Value는 새로운 가치를 창출하는 것을 의미합니다.


*5V

추가적으로 등장한 5가지의 V는 규모를 뜻하는 볼륨, 다양성을 뜻하는 버라이어티, 속도를 뜻하는 벨로시티, 정확성을 나타내는 벨라시티, 가치를 뜻하는 밸류로 나누어 볼 수 있습니다.

첫 번째 특징인 규모는 미디어나 위치 정보, 동영상 등과 같이 다루어야 할 데이터의 크기를 말하는 것입니다.

두 번째 특징은 정확성인데요. 빅데이터에서 정확성은 데이터에 부여할 수 있는 신뢰 수준을 말합니다.

셋째는 다양성입니다.
다양성은 다양한 종류의 데이터를 수용하는 속성을 말하는데요,
빅데이터는 형식이 정해져 있는 정형 데이터뿐만 아니라, 감시 카메라에서 생성되는 동영상,

개인이 디지털 카메라로 생성하여 웹 사이트에 올리는 사진, 소셜 네트워크 서비스로 전달되는 메시지, 또 물건에 부착되거나 주변에 설치된 센서에서 발생하는 RFID 태그나 센서 값 등 다양한 방법과 과정, 도구 등에서 생성된 비정형 데이터를 포함합니다.

네 번째로 나타난 특징은 가치입니다.
가치는 빅데이터를 저장하려고 IT 인프라 구조 시스템을 구현하는 비용을 말합니다.

빅데이터의 규모는 엄청나며 대부분은 비정형적인 텍스트와 이미지 등으로 구성되어 있습니다.

이 데이터들은 시간이 지남에 따라 빠르게 전파하면서 변하므로 그 전체를 파악하고 일정한 패턴을 발견하기는 쉽지가 않아서 가치의 중요성이 강조되고 있는 것입니다.

다섯 번째 특징은 속도입니다.

속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성을 말합니다.

데이터를 자동으로 생성하는 센서, 스마트폰 등 데이터 생성 및 유통 채널의 다변화로 데이터 생성 속도가 빨라짐에 따라 처리 속도의 가속화를 요구하기 시작하였습니다.


빅데이터의 유형

비정형 데이터

  • 고정된 필드에 저장되어 있지 않은 데이터

  • EX: 텍스트 문서 및 이미지, 동영상, 음성 데이터


반정형 데이터

  • 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마등을 포함하는 데이터

  • EX:) XML, HTML, 텍스트


정형 데이터

  • 고정된 필드에 저장된 데이터

  • EX:) 관계형 데이터베이스 및 스프레드 시트 등에 저장되는 관리 중인 대부분의 데이터 포맷

profile
성장을 도울 아카이빙 블로그

0개의 댓글