빅데이터의 취급이 어려운 이유
- 데이터 처리에 수고와 시간이 걸린다.
- 데이터의 분석 방법을 모른다.
데이터가 있어도 그 가치를 창조하지 못하면 의미가 없고, 지식이 있어도 시간을 많이 소비한다면 할 수 있는 것이 한정됨
→ 위 두 가지를 갖춰야 비로소 가치 있는 정보를 얻을 수 있음
빅데이터 기술의 요구
— Haddop과 Nospl의 대두
예를 들어, 전 세계의 웹페이지를 모아서 검색 엔진을 만들려면 방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로 처리할 수 있는 구조가 필요하다. 그러기 위해서는 수백 대, 수천 대 단위의 컴퓨터가 이용되어야 하며, 그것을 관리하는 것이 Hadoop이라는 프레임워크다.
RDB보다 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다는 특징을 갖추고 있다.
모여진 데이터를 나중에 집계하는 것이 목적인 Hadoop과는 다르게 NoSQL은 애플리케이션에서 온라인으로 접속하는 데이터베이스이다.
Hadoop과 NoSQL 데이터베이스의 조합
2012년 이후로부터 NoSQL에 기록하고 “Hadoop으로 분산 처리하기” 라는 흐름이 일반적으로 널리 퍼지게 되었음
다수의 데이터 분석 도구가 Hadoop에 대한 대응을 표명하여 대량의 데이터를 보존 및 집계하기 위해 Hadoop과 Hive를 사용하게 되었다. 그 결과 Hadoop의 도입을 기술적으로 지원하는 비즈니스가 성립하게 되었고, 그때 사용하게 된 키워드가 “빅 데이터” 이다.
데이터 웨어하우스 VS Hadoop
일부 데이터 웨어하우스 제품은 안정적인 성능을 실현하기 위해 하드웨어와 소프트웨어가 통합된 통합 장비(appliance)로 제공되었다. 데이터 용량을 늘리려면 하드웨어를 교체해야 하는 등 나중에 확장하기가 쉽지 않았다.
따라서, 가속도적으로 늘어나는 데이터의 처리는 Hadoop에게 맡기고, 비교적 작은 데이터, 또는 중요한 데이터만을 데이터 웨어하우스에 넣는 식으로 사용을 구분하게 되었다.