
데이터 처리와 스크립트 언어
—인기 언어인 파이썬과 데이터 프레임
일반적인 데이터 수집방법
(원시 데이터 그대로는 BI 도구로 읽을 수 없어 **전처리**가 필요한 데이터도 있음)
이때 가장 많이 사용하는 것이 스크립트 언어이다.
데이터 분석 분야에서 자주 사용되는 스크립트 언어
- R(통계 분석을 위해 개발된 언어)
- 파이썬(데이터 엔지니어 사이에서 인기가 많은 언어)
파이썬이 인기가 많은 이유
- 통계 분석에 특화된 R과 비교했을 때, 파이썬은 범용의 스크립트 언어로 발전한 역사가 있고, 다양한 분야의 라이브러리를 사용할 수 있다. 특히 외부 시스템의 API를 호출하거나, 복잡한 문자열 처리가 필요한 데이터 전처리에 적합하다.
- 파이썬은 과학 기술 계산 분야에서 오랜 기간 사용되었고, Numpy와 Scipy라는 수치 계산용 라이브러리와 머신러닝의 프레임워크가 충실하다. 데이터 처리 분야에서는 pandas를 많이 사용하고 있다.