데이터 과학의 활용 사례

이재관·2022년 2월 2일

하둡과 스파크를 활용한 실용 데이터 과학

목록 보기

2/6

빅데이터: 변화의 원동력

기업은 여느 때보다 다양한 유형의 데이터를 대량으로 활용할 수 있으며 빅데이터가 등장하기 전에는 기업에서 저장하고 처리할 수 있었던 데이터의 양이 예산 때문에 제한적인 경우가 많았다. 그 결과 데이터의 크기를 분석에 필요한 최소 규모로 축소하는 것이 기업의 일반적인 방식이었다.
하지만 빅데이터 시대가 도래하면서 IT 분야의 선도 기업들은 빅데이터 전략이 가져다주는 경쟁 우위를 인식하게 되었다.
빅데이터가 가져온 변화의 근간을 이루는 세가지 중요한 특성을 살펴보고 이 특성들이 현대 IT혁명에 어떤 영향을 줬는지 알아보자

규모(Volume):더 많은 데이터의 활용

빅데이터가 가져온 변화의 첫 번째이자 어쩌면 가장 단순한 원동력은 훨씬 더 많은 데이터를 활용할 수 있다는점이다.

기업은 데이터 베이스 기술이 사용화되었던 1960년대부터 데이터를 모으고 저장하고 적극적으로 활용해왔다.하지만 데이터 저장 및 관리의 비용에 상당한 영향을 받아서 저장하지 않는 것들이 발생했다.

하지만 지난 10년간 극적인 변화가 발생했다. 하둡은 대규모 스터리지 클로스터에 필요한 기업의 인프라 비용을 획기적으로 줄여 주었으며 대량의 거래전 데이터에서 분명한 비즈니스 가치를 도출할 수 있는 머신 러닝 알고리즘이 많이 진보했다. 이러한 변화는 데이터의 보관 여부와 기간에 대한 기업의 인식을 바꾸었다. 그 결과 상당수의 기업은 모든 데이터를 원시 데이터 형태로 저장한다. 또한 IOT기기 및 센서 데이터가 급증하면서 엄청난 양의 데이터가 생성되고 그 규모도 매년 기하급수적응로 커진다. 국제 데이터 조합(IDC)은 현대의 디지털 우주가 2020년까지 매년 두배씩 확대돼 2020년에는 무려 4만 엑사바이트(약 40조 기가바이트)의 데이터가 생성될 것으로 예측했다.
기존의 데이터 저장 소와 데이터 웨어하우스 솔루션은 인프라를 합리적인 비용으로 증설할 수 없으므로 이처럼 엄청난 규모의 데이터를 저장하는 것은 모든 기업의 숙제다. 하지만 데이터가 가져오는 엄청난 가치를 일찍 깨달은 기업은 이 새로운 데이터를 저렴하고 합리적인 비용으로 저장하고 효율적으로 활용할 수 있는 최신 데이터 레이크 기술을 도입했다.

다양성(Variety): 더 많은 데이터 유형

빅데이터 시대에 이르로 데이터의 규모가 증가했을 뿐만 아니라 다양하고 새로운 데이터 유형이 등장했다. 그 덕분에 이전까지는 불가능했던 분석과 예측의 기회가 열렸다. 빅데이터 시대의 새로운 데이터 유형을으로는

센서 데이터: 우리가 생활하는 곳곳에서 생성되며 점점 더 많은 기기가 이전에는 측정할 수없었던 새로운 유형의 데이터를 수집하고 저장하는 능력을 갖춘다. 예를 들어 휴대폰은 GPS정보를 수집하고 NEST는 온도 정보를 수집하며 자동차는 스스로 운전 상태 정보를 수집할 수 있다.
로그파일: 새로운 유형의 데이터는 아니다. 특정 서버에서 일어나는 다양한 유형의 정보를 기록하는 보편적인 방법이다. 지금까지 로그 파일은 서버에서 발생하는 문제를 진단하는데 사용됐으므로 보통 며칠 또는 몇 주간 저장됐다가 버려지는 것이 일반적이었다. 하지만 서버 로그에는 사용자의 페이지 뷰, 클릭 행동 같은 귀중한 정보가 들어있어서 최근에는 로그를 클릭 스트림 분석에 활용하려고 원시 형태로 수년간 보관하는 경우가 많다.
텍스트 데이터: 다양한 비즈니스 환경에서 활용할 수 있다. 텍스트 데이터는 PDF문서나 JSON/XML 파일 또는 단순 텍스트 파일 형태로 저장될 수 있으며 다양한 내용을 포함할 수 있다. 최근에는 고급 자연어 처리 기술을 대규모 텍스트 정보에도 적용할 수 있어서 데이터 중심 비즈니스에 텍스트 데이터를 활용하는 사례가 더욱 늘어난다.
-오디오 및 비디오 데이터: 기업의 감사(audit)을 위한 자료나 법률 준수(Compliance)사례의 근거 자료를 기록하려고 저장하는 경우가 많다. 최근 이부 기업은 이 오디오 및 비디오 데이터를 혁신적으로 사용할 새로운 기회를 찾았다. 예를 들어 콜센터의 고객 상담 내용이 녹음된 오디오 데이터를 분석해 제품에 대한 고객의 만족도를 도출하거나, 생산 공정의 비디오 데이터를 분석해 제품 불량을 조기에 발견할 수 있다.

속도(Velocity): 더 빠른 데이터 유입

빅데이터 시대가 가져온 변화의 또 다른 원동력은 데이터 유입 속도가 빨라졌다는 점이다.
AT&T, 버라이즌, T-모바일, 스프린트 같은 이동 통신 회사의 예를 들어보면 이 기업들은 국내망 또는 국제망을 구성하는 모든 기지국에서 이벤트 데이터를 수집한다. 이런 데이터가 유입되는 속도는 가히 압도적이어서 그들이 현재 보유한 최신 데이터 인프라 기술을 무력하게 만들기도 한다.

비즈니스 활용 사례

제품 추천

추천 시스템(Recommender System)은 온라인 소매업이나 이와 유사한 개념을 활용하는 다양한 비즈니스에 널리 활용된다. 우리는 아마존이나 넷플릭스, 페이스북, 링크드인, 구글 유튜브와 같은 온랑니 서비스가 제공하는 다양한 제품 추천 기술에 꽤 익숙해 져있다.

활용 효과

매풀 증가: 추천 시스템은 소비자가 좋아하거나 필요한 제품을 쉽게 찾도록 돕는다. 성공적인 제품 추천은 결국 제품 판매량 상승과 매출 증대로 이어진다.
다양한 제품 판매: 추천 시스템은 사용자가 찾기 어려운 제품을 손쉽게 찾도록 도우며 결과적으로 이러한 제품의 판매를 촉진한다.
사용자 만족도 및 충성도 향상: 잘 만든 추천 시스템은 서비스의 전체적인 사용자 경험을 개선한다. 사용자가 자신과 관련성이 높고 흥미로운 제품을 발견할수록 사용자의 서비스 만족도가 상승해 재방문율이 높아져서 비즈니스의 지속적인 매출에 도움이된다.

고객 이탈 분석

기존 고객을 유지하는 데 드는 비용이 새 고객을 확보하는 것보다 훨씬 저렴하다는 사실은 이미 잘 알려져있다. 은행, 소매업체, 게임 운영 업체, 인터넷 서비스 제공 업체, 이동 통신 업체, 항공사, 보험사에 이르는 거의 모든 기업이 고객 유지 및 이탈(또는 탈퇴) 방지 프로그램을 적극적으로 실행한다.
업계마다 비즈니스 모델이 다르고 고객 참여와 생애 가치 모델(lifetime value model)또한 업계에 특화돼 있어 고객 이탈 모델도 업계마다 다르다. 그러나 각 고객이 '떠날 가능성'은 모두 머신 러닝으로 예측한다. 기업은 이 예측을 기바능로 고객 유지 프로그램을 시행해 이탈할 위험이 있는 고객이 서비스를 유지하도록 권유한다.

이재관

안되면 될 때까지

이전 포스트