데이터 분석을 위해 python을 쓰는 여러 장점 중,
다양한 라이브러리의 지원 이 큰 부분을 차지한다고 생각한다.
데이터 조작 도구 라이브러리와 데이터 시각화 도구를 살펴보자.
Numpy - 입출력 자료 구조
Pandas - 입력 데이터를 만드는 과정, 데이터 시각화 과정
Numpy 패키지의 ndarray 객체는 배열 기반의 데이터에 효율적인 저장소 뿐만 아니라 효율적인 연산을 제공
Numpy 배열 객체는 단일 요소에 접근하는 indexing, 하위 배열에 접근하는 slicing, bool 배열을 이용한 masking 연산, index 배열을 이용한 fancy indexing, 이 모든 기능을 결합해 사용하는 복합 인덱스 기능을 제공
Pandas 패키지는 유연한 인덱스를 가진 1차원 배열 Series와 유연한 행 인덱스와 열 이름을 가진 2차원 DataFrame 객체를 제공
DataFrame은 인덱싱 연산에 loc, iloc 인덱서를 제공하여, 널 값 연산 기능과 조인, 그룹화, 피봇 가능을 지원
실제 분석에서는 Numpy와 Pandas를 함께 사용한다.
Numpy의 수치, 연산, 배열 등의 이점을 Pandas의 테이블 데이터 형식과 결합하여 분석에 활용한다.
데이터 시각화는 통계량만으로는 알 수 없는 데이터에 대한 직관을 제공,
머신러닝의 성능을 비교하는데 필수적인 도구로써 역할한다.
참고