필자는 빅데이터 시대에 맞서 기업에 요구되는 데이터를 잘 활용하고 쓰일 수 있도록 해주는 데이터 엔지니어가 되는 것이 목표이다.

우선 필요 역량에 앞서 빅데이터가 뜨게 된 배경과 데이터 관련 직무에 대해서 하나 하나 알아보자.

빅 데이터

빅 데이터란 무엇일까?

오라클에선 다음과 같이 정의한다.

거대한 규모(volume), 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터

새로운 데이터 소스에서 나온 더 크고 복잡한 데이터 세트.
너무 방대하여 기존의 데이터 처리 소프트웨어로는 관리할 수 없는 크기의 데이터

방대한 양의 데이터로 이전에 해결할 수 없었던 비즈니스 문제를 해결하는 데 사용

https://www.oracle.com/kr/big-data/what-is-big-data/

위 첫번째 정의에서 언급되는 양, 속도, 종류를 3대 요소, 3V이라고 한다.

  1. 양(volume) - 데이터의 양
    빅 데이터를 사용하면 저밀도 비정형 데이터를 대량으로 처리해야 한다.
    Twitter 데이터 피드, 웹 페이지나 모바일 앱의 클릭 스트림, 센서 지원 장비와 같이 알려지지 않은 값의 데이터가 해당될 수 있다.
    일부 조직의 경우, 데이터 양이 수십 테라바이트에서 수백 페타바이트가 될 수 있다.

  2. 속도(velocity) - 데이터가 얼마나 빨리 수신 및 처리되는가
    데이터를 디스크에 기록하는 것보다 메모리로 직접 스트리밍할 때 속도가 가장 빠르다.
    일부 인터넷 지원 스마트 제품은 실시간 또는 거의 실시간으로 작동하기 때문에 실시간 평가 및 조치가 필요하다.

  3. 종류(variety) - 사용 가능한 데이터의 유형 수
    기존 데이터 유형은 구조화되어 관계형 데이터베이스에 적합했다. 빅데이터의 등장으로 새로운 비정형 유형의 데이터가 나타났다.
    텍스트, 오디오 및 비디오 같은 비정형 및 반정형 데이터 유형은 의미를 도출하고 메타 데이터를 지원하기 위해 추가로 전처리가 필요하다.


최근 기술 혁신으로 데이터 스토리지 및 컴퓨팅 비용이 대폭 감소하면서 이전보다 더 많은 데이터를 보다 쉽고 저렴하게 저장할 수 있게 되었다.

예전에는 중요하다고 생각한 데이터(사용자 수, 매출 등) 위주로 분석하고, 그 이외의 데이터는 저장하지 않거나 사용하지 않았다.

그러던 언제부턴인가 테크 기업들은 이런 버려지던 데이터들을 가지고 서비스 개선에 활용하고 광고와 마케팅으로 돈을 만들어냈다.

이런 사례들이 널리 알려지게 되어 데이터에 대한 관심도 급격히 증가하였고 양이 방대해지며 오늘 날의 빅데이터로 이르렀다.

오늘 날 빅 데이터는 자본이 되었고, 세계에서 가장 큰 기술 회사를 생각해보면 이들이 제공하는 가치의 대부분은 데이터에서 나오고 있으며, 효율성을 높이고 신제품을 개발하기 위해 데이터를 지속적으로 분석하고 있다.


빅 데이터 활용 사례

빅 데이터는 고객 경험에서 분석에 이르기까지 다양한 비즈니스 활동을 처리하는데 도움이 될 수 있다.
빅데이터를 활용한 대표적인 사례 2가지를 알아보자

1. 머신러닝

첫번째로 머신러닝이다. 아마도 현재 가장 주목 받는 주제가 아닐까 한다.

데이터를 활용하여 머신러닝 알고리즘을 통해 학습을 하고 학습된 결과를 바탕으로 데이터의 의미 있는 가치를 찾아 의사 결정을 하는데 참고 자료로 활용한다.

인공지능 구현에 빅 데이터를 이용해 그 정확도를 획기적으로 증가시켰고, 빅데이터 분석에 인공지능 기술을 도입하여 빅데이터의 활용성을 폭발적으로 높여주었다.

이에 있어서는 컴퓨팅 자원의 발전이 컸다고 생각한다.

컴퓨터 하드웨어의 발전이 더뎠던 과거에는 인공지능과 데이터 분석은 크게 연관이 있는 사이는 아니었지만
2010년대 3차 AI붐이 발생한 이후로 인공지능과 빅데이터는 매우 밀접한 사이가 되었다.

2. 고객 유치

두번째로 고객 유치이다.

기업의 입장에서는 기존 고객이 자사 서비스를 꾸준히 활용하게 하는 것과 동시에 신규 고객에 있어서 다양한 유치 전략이 필요하다.
빅데이터 분석은 고객의 행동·사고의 정밀한 파악을 가능하게 하고 마케팅 개선에 큰 도움이 된다.

성공 사례를 보자.

1) 아마존 - "고객의 행동 분석으로 가격 인하없이 이익의 상승"

아마존은 인기 상품 외에는 굳이 가격을 내리지 않는 것으로 이익을 올리고 있다.
빅데이터를 활용한 고객 행동 분석을 통해 최적의 상품을 사용자에게 추천하는 등 가격 인하 외의 방법으로 충분한 판매 기회를 확보할 수 있기 때문이다.

이것은 이익 극대화를 노리는 형태로, 이른바 *롱테일 전략에 성공하고 있는 사례로 들 수 있다.

*롱테일 효과(long tail theory) - 주목받지 못하는 다수가 핵심적인 소수보다 더 큰 가치를 창출하는 현상
80%의 비주류 상품 혹은 고객의 매출이 20%는 충분히 뛰어넘을 뿐 아니라 시장지배자보다 더 많은 매출을 올릴 수도 있다.
https://dic.hankyung.com/economy/view/?seq=6070

2) NC소프트 - "빅데이터 기반의 불법 사용자 탐지"

NC소프트는 빅데이터 기반의 고객 데이터 분석 시스템을 구현하고 운영 중에 있다. 불법적으로 다른 사람의 자산을 이용하거나 가져가는 행위를 잡기 위해 오랫동안 연구해 왔고 여기에 빅데이터 기술을 활용하고 있다.

방대한 고객의 행동 및 사용 로그 데이터를 분석하여 사기 탐지(Fraud detection) 알고리즘을 고도화하여 적용하였고 이를 이용하여 불법 행위를 모니터링하고 있다.


이번 포스트에서는 빅데이터란 무엇인지, 빅데이터가 어떻게 활용되고 있는지 알아보았다.

이러한 빅데이터를 누가 분석하고 처리할까?
해당 내용에 대해서 다음 포스트에서 다루어볼 예정이다.

참고 자료

https://tech.kakao.com/2020/11/30/kakao-data-engineering/
https://www.oracle.com/kr/big-data/what-is-big-data/
https://modulabs.co.kr/blog/ai-bigdata/
https://www.salesforce.com/kr/hub/marketing/bigdata-marketing-point/
https://www.samsungsds.com/kr/insights/1232585_4627.html

profile
일에 대한 사명감?!

0개의 댓글