이 글은 Kaggle Coueses 이글을 해석한 글입니다.
Machine leaning 프로젝트에서 첫 step은 데이터와 친숙해지는 것입니다. 당신은 아마 이를 위해 Pandas library를 이용할 것입니다. Pandas는 data scientist가 데이터를 탐색하고 다루는데 사용하는 주된 tol=ol입니다. 대다수의 사람들이 pandas를 그들의 코드에서 pd
로 줄여 사용합니다. command는 다음과 같습니다.
import pandas as pd
Pandas library에서 가장 중요한 부분은 DataFrame 입니다. DataFrame은 table 형태라고 생각할 수 있는 데이터가 들어 있습니다. 이는 Excel에 sheet 또는 SQL database에 있는 table과 유사합니다.
Pandas는 이런 종류의 데이터로 하고 싶은 대부분의 것들을 할 수 있게 해주는 강력한 도구 입니다.
예시로, 호주 Melbourne에 집가격에 관한 데이터를 보겠습니다. 실습에는 새로운 데이터(Iowa의 집가격)에 동일한 process를 적용해볼 것입니다.
예시 데이터의 파일 경로는 ../input/melbourne-housing-snapshot/melb_data.csv
입니다.
우리는 다음과 같은 명령어로 데이터를 load하고 탐색해볼 것입니다.
# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# 데이터를 불러오고 melbourne_data라는 이름으로 데이터 프레임에 데이터를 저장합니다
melbourne_data = pd.read_csv(melbourne_file_path)
# Melbourne data에 있는 데이터의 요약한 정보를 보여줍니다.
melbourne_data.describe()
output
output은 원래 데이터셋의 각 column에 대한 8개의 숫자를 보여줍니다. 첫 숫자는 count로 결측치가 없는 row가 어느정도 있는지에 대한 수를 보여줍니다.
결측치가 발생하는 원인은 다양합니다. 예를 들어 2층에 있는 침실의 크기가 1층의 침실 크기를 조사할 때 고려되지 않을 수도 있습니다.
두 번째 값은 평균을 의미하는 mean 입니다. 그 아래엔 std로 표준편차를 의미하고 이는 데이터가 얼마나 퍼져 있는지를 측정합니다.
min, 25%, 50%, 75%, max값을 해석하기 위해서는 각 컬럼의 값을 가장 낮은 값부턴 가장 큰 값까지 정렬했다고 상상해 보면 됩니다. 첫 번째 값(smallest)은 min 입니다. 그리고 정렬된 값들의 순서로 부터 1/4지점에 해당하는 것이 25% 값이고 이를 1/4지점을 한번, 그리고 두번 가면 각각 50%, 75%에 해당하는 값을 알 수 있습니다. max 값은 맨 마지막에 해당하는 값입니다.
첫 코딩 훈련을 한 번 시작해 보세요