Data science encompasses a set of principles, problem definitions, algorithms, and processes for extracting non-obvious and useful patterns from large data sets.
(데이터사이언스는 커다란 데이터셋으로부터 불명확하고 유용한 패턴을 추출하기 위한 일련의 원리, 문제 정의, 알고리즘 및 프로세스를 포함한다.)
- Kelleher & Tierney
데이터 사이언스의 사전적 정의는 한마디로,
"Data로부터 Information (or meaning)을 추출하는 과정을 통틀어 이야기한다."
라고 정리할 수 있다.
위 사전적 정의로부터 조금 눈여겨 볼 워딩들은
"encompass", "non-obvious and useful", "large datasets"
각각은 데이터사이언스라는 학문의 특징을 잘 반영하는 워딩들이다.
<일·사물 등이> …을 포함하다
"encompass"는 데이터사이언스의 복합적이고 다학문적인 접근 방식을 반영한다.
"Data science is"가 아닌 "Data science encompass"는 데이터사이언스를 명시적으로 나열하기 힘든 여러가지 학문들과 복잡한 일련의 과정들로 이루어진 총체로서 정의하는 것처럼 보인다.
데이터사이언스는 수학, 통계학, 인공 지능 및 컴퓨터 공학 분야의 학문적 원리와 사례들을 결합하고 데이터셋과 관련된 분야의 전문화된 지식(도메인 지식)을 함께 활용하는 다학문적 성격을 띄고 있다.
데이터사이언스는 문제를 정의하는 것으로 부터 시작하여 데이터를 수집하고 가공하며 분석하여 의미를 추출하고 이러한 의미를 유용한 의사결정에 활용하는 일련의 과정을 모두 포함하는 학문이다.
따라서 데이터사이언스는 명시적으로 그 정의를 나열하는 것이 힘든 복합적 학문으로, 하나의 문장으로는 명확히 정의하기 힘든 부분이 있으므로 "is"보다는 "encompass"라는 워딩을 통해 쉽게 하나로 정의내릴 수 없는 학문적 특성을 반영하였다고 생각한다.
(눈으로 보거나 이해하기에) 불분명한[명백하지 않은] & 유용한, 도움이 되는, 쓸모 있는
"non-obvious and useful"는 데이터사이언스의 불명확성과 목적지향성을 반영한다.
"non-obvious and useful"은 데이터사이언스가 불명확하고 유용한 패턴을 추출한다는 맥락으로 사용되었다.
여기서 "non-obvious"의 불명확성은 "인간이 이해하기 힘든"이라는 의미의 불명확성이다.
인간이 데이터셋을 보고 한 눈에 쉽게 머릿속으로 생성할 수 있는 패턴은 일반적으로 데이터사이언스라는 일련의 과정을 거쳐 시간과 노력을 들이며 발견할 가치가 없는 패턴들이다. 따라서 데이터사이언스의 불명확성은 인간이 쉽게 만들어내기 힘든 패턴을 추출한다는 특징이다.
이는 곧바로 "useful"로 표현된 데이터사이언스의 목적지향적인 특징과 연결된다.
데이터는 수많은 정보를 포함하고 있다. 특히나 그 데이터의 복잡도와 크기가 증가할수록 정보량 역시 비약적으로 늘어날 것이고, 그럴수록 인간이 단순한 방법으로는 데이터를 이해하기 힘들어지기 때문에 데이터사이언스의 필요성이 커지는 것이다. 하지만 이러한 데이터는 항상 유용한 정보만을 담고 있지 않다.
데이터사이언스를 통해 데이터가 내포하는 수많은 정보중에서 유용한 정보만을 추출하는 것이 중요한데, 문제는 어떤 것이 유용한 것이고 어떤 것이 유용하지 않은 것이냐를 판별하는 기준이다.
이 기준을 명확히 하기 위해서 데이터사이언스는 반드시 목적지향적으로 수행되어야 한다.
목적지향적이라는 말은 곧, 해결하고자 하는 문제가 무엇인지 파악하고 그 문제를 해결하기 위한 insight를 제공할 수 있는 정보가 곧 유용한 정보가 되는 것이다.
위에서 언급한 것과 같이 데이터사이언스는 문제설정부터 의사결정까지의 일련의 과정을 포함하는 학문이므로, 데이터사이언스라고 불리기 위해서는 추출한 패턴들이 반드시 유용한 것이어야만 한다는 말이다. 아무리 데이터로부터 멋진 패턴을 발견했다고 한들, 그것이 현재 직면한 문제를 해결하는데 도움을 주지 못한다면 그 패턴은 하등 쓸모 없는 정보일 뿐이다.
결국 데이터사이언스는 우리가 직면한 문제를 해결한다는 목적을 달성하기 위해 분석할만한 가치가 있는 "non-obvious and useful"한 패턴을 추출하는 학문이라는 것이다.
(규모가) 큰, (양이) 많은 데이터셋
"large data sets"은 데이터사이언스의 차별성을 반영한다.
"large data sets"은 데이터사이언스가 통계학과 같은 기존의 학문과 구별되는 데이터사이언스만의 차별성과 데이터사이언스의 필요성을 반영하는 것으로 보인다.
데이터사이언스와 관련하여 가장 먼저 떠오르는 단어 중 하나는 바로 "빅데이터"일 것이다.
빅데이터란 간단히 말해서 기존의 데이터베이스나 데이터처리방식의 능력을 넘어서는 대량의 데이터로부터 의미를 추출하는 기술을 말한다.
(빅데이터의 정의에 대해서는 추후에 자세히 다루도록 할 것이다)
현대 사회에서는 기존의 단순한 수학과 통계학만으로 처리하기엔 너무나 복잡하고 양이 많으며 심지어는 정형화되지 않는 데이터들이 점점 늘어가고 있다. 따라서 이러한 데이터들로부터 유용한 정보를 추출하기 위해서는 수학, 통계학, 인공 지능 및 컴퓨터 공학 분야는 물론이고 심지어는 언어학, 경제학, 사회학과 같은 다양한 분야의 지식을 통합하는 "데이터사이언스"라는 새로운 학문을 필요로 한다.
따라서 데이터사이언스를 정의함에 있어서 "large data sets"라는 요소는 데이터사이언스의 복합성으로부터 오는 데이터사이언스만의 차별성과 필요성을 잘 반영하고 있다.
개발자로서 성장하는 데 큰 도움이 된 글이었습니다. 감사합니다.