numpy+pandas - 3

김찬울·2021년 7월 23일

이전 시간에는 넘파이에 대해 조금 알아봤다.

오늘은 pandas를 알아볼 것인데 판다스는
넘파이의 활용 버전에 가깝다.

넘파이를 표형식으로 바꿔줄 뿐더러 인덱스, 컬럼, 이름등을 지정해주므로써
편리성을 제공한다.

일단 중요한 세가지가 Series, DataFrame, index 가 있다

series

시리즈는 간단하게 1차원 벡터이다.

index로만 구분되며 열이 하나이므로 컬럼이 없는 벡터형태이다.

해당 시리즈는 DataFrame과 유용하게 쓰인다.

일단 pd는 모두 넘파이 기반이기에 pd를 통해 나오는 결과와 입력값은 ndarray의 형태를 띈다.

series의 사용법은 간단하다.

series1 = pd.Series(1차원 input)

의 형태를 띄는데 이때 우리는 마치 딕셔너리처럼 인덱스 값을 부여할 수 있다.

이는 추가적으로

series1 = pd.Series(1차원 input, index=[input의 크기에 맞는 키값들])

의 형태이다. 딕셔너리지만 순서가 있고 index를 사용할 수 있는 딕셔너리라 보는 것이 편하다.

데이터 프레임은 꽤나 자주 쓰일 예정인데 해당 함수를 사용하면

마치 엑셀의 표 형식처럼 보기 쉽게 정리해준다.

가로 세로로 이루어진 2차원 행렬인데.

이는 range와 reshape의 조합으로 자주 선언되기도 한다.

이때부터 컬럼이라는 가로 열이 생기는데

이것때문에 또 생기는것이 axis 즉 축을 지정할 수 있다.

기본적으로 축은 행 기준으로 0,
열 기준으로 1을 띈다.

이를 이용해서 행을 가져올 수도 열을 가져올 수도 있다.

가져오는 방식은 아래의 index에서 설명하겠다.

df = pd.DataFrame(2차원 input)

인데 이때도 마찬가지로 columns = ... , index = ...으로 각 기준을 지정해줄 수 있게된다.

index는 가장 중요하다 일단 모든 시리즈와 DF는 인덱스를 무조건 적으로 그리고 DF는 추가로 컬럼을 갖고 있는데 기본 index는 0부터의 연속값이다.
지정할 수도 있는데 이는 딕셔너리의 키값이라고 생각하면 된다. 문자열도 되는 것은 당연지사

그리고 기본적으로 인덱스도 가지기에 우리는 색인과 슬라이스를 할 수 있다

기본 인덱스와 사용자 지정 인덱스를 통해서
[][]이런식이나 [[][]] 이런식으로 값을 색인하고 슬라이스 해올 수 있다.

오늘의 정리는 간단하게 마치고 내일 다른 함수들에 대해 알아볼 예정이다!

코린코린이