[빅데이터를 지탱하는 기술] 1-1. 빅데이터의 정착

조하운·2023년 4월 7일

bigdata

[독서]빅데이터를 지탱하는 기술 | 니시다 케이스케

목록 보기

1/4

분산 시스템에 의한 데이터 처리의 고속화

빅데이터의 취급이 어려운 이유

데이터 처리에 수고와 시간이 걸린다.

데이터의 분석 방법을 모른다.

데이터가 있어도 그 가치를 창조하지 못하면 의미가 없고, 지식이 있어도 시간을 많이 소비한다면 할 수 있는 것이 한정됨

→ 위 두 가지를 갖춰야 비로소 가치 있는 정보를 얻을 수 있음

`빅데이터 기술의 요구`

— Haddop과 Nospl의 대두

Hadoop

💡 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템

예를 들어, 전 세계의 웹페이지를 모아서 검색 엔진을 만들려면 방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로 처리할 수 있는 구조가 필요하다. 그러기 위해서는 수백 대, 수천 대 단위의 컴퓨터가 이용되어야 하며, 그것을 관리하는 것이 Hadoop이라는 프레임워크다.

Hive

💡 자바 언어로 동작해야 했던 Hadoop의 단점을 극복하고자 SQL과 같은 쿼리 언어를 Hadoop에서 실행할 수 있게 해주는 소프트웨어

NoSQL 데이터베이스

Key-Value 스토어 : 다수의 키와 값을 관련지어 저장
Document 스토어 : JSON과 같은 복잡한 데이터 구조를 저장
Wide-colnmn 스토어 : 여러 키를 사용하여 높은 확장성을 제공

RDB보다 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다는 특징을 갖추고 있다.

모여진 데이터를 나중에 집계하는 것이 목적인 Hadoop과는 다르게 NoSQL은 애플리케이션에서 온라인으로 접속하는 데이터베이스이다.

`Hadoop과 NoSQL 데이터베이스의 조합`

2012년 이후로부터 NoSQL에 기록하고 “Hadoop으로 분산 처리하기” 라는 흐름이 일반적으로 널리 퍼지게 되었음

분산 시스템의 비즈니스 이용 개척

다수의 데이터 분석 도구가 Hadoop에 대한 대응을 표명하여 대량의 데이터를 보존 및 집계하기 위해 Hadoop과 Hive를 사용하게 되었다. 그 결과 Hadoop의 도입을 기술적으로 지원하는 비즈니스가 성립하게 되었고, 그때 사용하게 된 키워드가 “빅 데이터” 이다.

`데이터 웨어하우스 VS Hadoop`

일부 데이터 웨어하우스 제품은 안정적인 성능을 실현하기 위해 하드웨어와 소프트웨어가 통합된 통합 장비(appliance)로 제공되었다. 데이터 용량을 늘리려면 하드웨어를 교체해야 하는 등 나중에 확장하기가 쉽지 않았다.

따라서, 가속도적으로 늘어나는 데이터의 처리는 Hadoop에게 맡기고, 비교적 작은 데이터, 또는 중요한 데이터만을 데이터 웨어하우스에 넣는 식으로 사용을 구분하게 되었다.

조하운

| 컴퓨터 비전 | 딥 러닝 | 자율주행 |

다음 포스트