pandas 기본 개념(+ value_count, index, tolist)

꼬부썬·2022년 10월 20일
0

pandas 기본 개념

Series

pandas에서 Series는 하나의 column 이나 row를 뜻하며 Series는 1차원 배열의 형태를 가진다. Series는 인덱스라는 한 가지 기준에 의해 데이터가 저장된다.

DataFrame

DataFrame은 여러 Series의 집합이며, 2차원 배열의 형태를 가고 인덱스와 컬럼이라는 두 가지 기준에 의해 표 형태처럼 데이터가 저장된다.

코드

A = df['Name'].value_counts().index.tolist()

.value_counts()

특정'열'에서 값의 등장횟수를 세어줌. 시리즈로 출력됨. 인덱싱가능.
2개 이상의 열 기준으로 구하려면 (['열1', '열2']))
value_counts()는 기본값이 내림차순(큰 값 -> 작은 값) 정렬인데, 매개변수 값을 ascending=True 변경하면 오름차순 정렬된다.

.index

인덱스 출력
(dtype=’object’ —> object(문자열) 형태로 인덱스를 출력함. 요소들이 문자열로 구성되어 있음을 의미함.)

.tolist()

리스트 형태로 반환


공부할수록 기초적인 공부의 필요성을 느끼고 있다. .index가 나와서 구글링했는데 '인덱스 출력' 이라는 설명을 보고 이해를 못해서 index가 뭔지 찾아봤다. 데이터프레임에서 2가지 기준으로 배열하는데 column이 아닌 다른 기준(쉽게 말하면 row의 이름)을 의미하는 거였다. 데이터프레임의 구조같은 기본적인 개념이 잡혀있었다면 금방 쉽게 이해할 수 있었을텐데!!
앞으로 더더 꾸준히 기본기를 쌓아나가야겠다

출처 : https://dandyrilla.github.io/2017-08-12/pandas-10min/

0개의 댓글