[빅데이터를 지탱하는 기술] 1-1. 빅데이터의 정착

조하운·2023년 4월 7일
0

분산 시스템에 의한 데이터 처리의 고속화

빅데이터의 취급이 어려운 이유

  1. 데이터 처리에 수고와 시간이 걸린다.
  2. 데이터의 분석 방법을 모른다.

데이터가 있어도 그 가치를 창조하지 못하면 의미가 없고, 지식이 있어도 시간을 많이 소비한다면 할 수 있는 것이 한정됨

→ 위 두 가지를 갖춰야 비로소 가치 있는 정보를 얻을 수 있음


빅데이터 기술의 요구

— Haddop과 Nospl의 대두

Hadoop

💡 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템

예를 들어, 전 세계의 웹페이지를 모아서 검색 엔진을 만들려면 방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로 처리할 수 있는 구조가 필요하다. 그러기 위해서는 수백 대, 수천 대 단위의 컴퓨터가 이용되어야 하며, 그것을 관리하는 것이 Hadoop이라는 프레임워크다.

Hive

💡 자바 언어로 동작해야 했던 Hadoop의 단점을 극복하고자 SQL과 같은 쿼리 언어를 Hadoop에서 실행할 수 있게 해주는 소프트웨어

NoSQL 데이터베이스

  1. Key-Value 스토어 : 다수의 키와 값을 관련지어 저장
  2. Document 스토어 : JSON과 같은 복잡한 데이터 구조를 저장
  3. Wide-colnmn 스토어 : 여러 키를 사용하여 높은 확장성을 제공

RDB보다 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다는 특징을 갖추고 있다.

모여진 데이터를 나중에 집계하는 것이 목적인 Hadoop과는 다르게 NoSQL은 애플리케이션에서 온라인으로 접속하는 데이터베이스이다.

Hadoop과 NoSQL 데이터베이스의 조합

2012년 이후로부터 NoSQL에 기록하고 “Hadoop으로 분산 처리하기” 라는 흐름이 일반적으로 널리 퍼지게 되었음


분산 시스템의 비즈니스 이용 개척

다수의 데이터 분석 도구가 Hadoop에 대한 대응을 표명하여 대량의 데이터를 보존 및 집계하기 위해 Hadoop과 Hive를 사용하게 되었다. 그 결과 Hadoop의 도입을 기술적으로 지원하는 비즈니스가 성립하게 되었고, 그때 사용하게 된 키워드가 “빅 데이터” 이다.

데이터 웨어하우스 VS Hadoop

일부 데이터 웨어하우스 제품은 안정적인 성능을 실현하기 위해 하드웨어와 소프트웨어가 통합된 통합 장비(appliance)로 제공되었다. 데이터 용량을 늘리려면 하드웨어를 교체해야 하는 등 나중에 확장하기가 쉽지 않았다.

따라서, 가속도적으로 늘어나는 데이터의 처리는 Hadoop에게 맡기고, 비교적 작은 데이터, 또는 중요한 데이터만을 데이터 웨어하우스에 넣는 식으로 사용을 구분하게 되었다.

profile
| 컴퓨터 비전 | 딥 러닝 | 자율주행 |

0개의 댓글