Pandas 기초

김범주·2024년 9월 7일
0

AIVLE

목록 보기
2/21
post-thumbnail
#데이터프레임
딕셔너리 자료형을 이용해 만드는 테이블 형태의 데이터
딕셔너리 자료형으로 직접 만들수도 있지만 보통 csv파일을 사용해서 작성
pd.read_csv(파일경로)로 불러옴
데이터프레임명.head(n) or .tail(n)를 사용해서 앞뒤 데이터를 n만큼 조회 가능(안적으면 전부)
#행 수와 열 수 확인
데이터프레임명.shape로 확인
#열 정보 확인
데이터프레임명.columns, .columns_values로 확인
#열 자료형 확인
데이터프레임명.info()로 확인
.dtypes로 데이터 타입만 조회하는 것도 가능
#특정 조건으로 정렬 후 조회
데이터프레임명.sort_values(by='열 이름')로 확인 (열이 여러개면 []안에!)
ascending = True/False 옵션으로 오름차순, 내림차순 선택 가능
#열 고유값과 그 개수 확인
데이터프레임명[열 이름].unique() : 열의 고유값
데이터프레임명[열 이름].value_counts() : 고유값 개수 (시리즈로 반환)
#기본 집계 메소드
데이터프레임명[열 이름].sum() : 열 합계
데이터프레임명[열 이름].max() : 열 최댓값
데이터프레임명[열 이름].mean() : 열 평균값!
데이터프레임명[열 이름].median() : 열 중앙값
#특정 열 조회
데이터프레임명[열 이름] = 데이터프레임명.열 이름 (시리즈 반환)
여러 개의 열을 조회할 때는 [[열 이름1, 열 이름2]] 식으로! (다중 조회시 데이터프레임)
#조건 조회
데이터프레임명[열 이름] 조건문 = True/False 
데이터프레임명.loc[데이터프레임명[열 이름] 조건문] = 조건에 따른 조회
.loc안 []()로 조건을 구분해 다중으로 지정할 수 있음 (조건 간 &| 를 사용해 지정)
#.isin(), .between()
데이터프레임명.loc[데이터프레임명[열 이름].isin([1,2..])]
특정 열 값이 리스트 안에 있는 값에 있는지 조회
#.isin(), .between()
데이터프레임명.loc[데이터프레임명[열 이름].isin([1,2..])]
특정 열 값이 리스트 안에 있는 값에 있는 경우 조회
데이터프레임명.loc[데이터프레임명[열 이름].between(1,2)]
특정 열 값이 두 값 사이에 있는 경우 조회
inclusive옵션은 both면 이상이하, neither이면 초과미만, left면 이상미만, right면 초과이하
#조건을 만족하는 행의 일부 열 조회
데이터프레임명.loc[조건, 열 이름]
조건이 여러개면 ()&, |로 구분, 열 이름은 무조건 [] 안에
#집계하기
데이터프레임명.groupby(열 이름, as_index=True/False)[열 이름].메소드
열 이름을 그냥 적으면 시리즈 반환, 여러 개를 [[]]로 적으면 데이터프레임 반환
메소드는 mean, sum 등
as_index = True는 기준으로 잡은 열이 인덱스가 됨, False는 새로운 행 번호가 인덱스
profile
개발꿈나무

0개의 댓글