# pandas

[Pandas] loc을 이용하여 데이터프레임 값 변경하기
데이터를 분석하기 위해 데이터를 불러오니 다음과 같이 nan값 대신에 특정 값이 채워져있는걸 확인할 수 있었다.따라서 이 -999라는 값을 Nan값으로 바꾼 후 결측치 처리를 하고 싶었다.df.loc조건, "column 이름" = 변경 값 을 이용하면 된다. 아래의 예

[pandas] 여러개 csv파일을 하나의 데이터프레임으로 병합하기
데이터 공부를 시작할때 보통 하나의 csv파일 즉, toy data로 연습을 했었다. 하지만, 이번에 공모전을 하면서 폴더에 들어있는 여러 csv파일을 하나의 데이터프레임으로 병합해야할 필요가 생기게 되었다.더 좋은 다른 방법이 있을지는 모르겠지만 나는 다음과 같은 방
Pandas 기본 사용법 1 데이터 종류
지금 nlp관련 프로젝트를 하고 있는데 이를 위해 공부한 pandas사용법을 간단하게 블로그에 정리해볼까 한다.pandas에는 두가지 형태의 종류가 존재한다. dataframe과 Series이다.이들의 차이점은 예제 코드를 보면 쉽게 알 수 있는데일단 데이터를 만드는

[Pandas] 특정 열의 특정 문자열을 포함하는 행
데이터프레임의 'data' 열의 데이터가 2017-01-01, 2017-01-02, ... ,2019-12-31 이런 식으로 되어 있는데,2017년도 행만 지우고 싶다거나 2019년도 행만 남기고 싶을 때,정규식을 사용하여 해결하면 된다.1 2017년만 지우고 싶을 때

[Pandas] 행/열 삭제 (+매개변수 axis, inplace)
판다스 데이터프레임에서 행/열을 삭제하는 방법에는 이것 말고도 여러가지가 있겠지만,그냥 뭔가 간단하고 예뻐보이는 코드ㅋㅋㅋ(공부하다가 추가하도록 하겠다.)1 drop() 함수 사용'col_name'이라는 열 삭제.행/인덱스 삭제하고 싶으면 axis 매개변수를 0으로 바

[Pandas] 데이터 살펴보기
df.head() : 데이터 상위 5개 행 출력, 괄호에 넣은 숫자만큼 행 출력df.tail() : 데이터 하위 5개 행 출력, 괄호에 넣은 숫자만큼 행 출력df.shape : 데이터의 (행, 열) 크기 확인df.info() : 전반적인 정보, 데이터 프레임의 행&열

[Pandas] 결측값 관련 - isnull()/isna(), dropna(), fillna(), notna()
df.isnull() : 각 행/열 별 결측 여부, True(있음)/False(없음)(+) df.col_name.isnull() : 'col_name' 컬럼의 행별 결측 여부, True(있음)/False(없음)(+) dfdf.col_name.isnull() : 'col

[Python] Pandas_대학원 입학과 스펙의 연관성 #1
Python_Pandas를 활용하여 대학원 입학과 스펙의 연관성에 대한 데이터를 출력해보자

[Pandas] 인덱스 - set_index(), reindex(), reset_index(), sort_index(), sort_value()
1 set_index() : 특정 열을 행 인덱스로 설정, 데이터 프레임을 불러온 후 특정 열을 인덱스로 설정멀티 인덱스는 레이블의 배열 입력drop 옵션 : True(default) - 'col_name' 컬럼을 인덱스로 옮기고 컬럼에서 삭제, False 'col_n

[Pandas] inplace 옵션 사용 이유
옵션의 의미를 자꾸 잊어버리고 헷갈린다.자주 쓰는 건 정해져 있겠지만, 공부하는 지금의 나에겐 inplace 옵션!중요하지 않을 수 도 있지만 중요할 수도 있기에...1) rename(), drop() 등의 메서드 사용 시 변경될 데이터 프레임을 저장할 때 사용2) d

[Pandas] loc, iloc
loc이랑 iloc 헷갈린다. 반대로 기억하기도 하고. 나의 뇌 용량이 적은 것인가.늘 느끼는 거지만 공부하고 정리해서 공유해주시는 분들께 정말 감사하다.1 loc (=location)데이터 프레임의 행이나 컬럼에 label이나 boolean array로 접근인간이 읽

[Pandas] apply() 함수
1) Series(1차원), DataFrame(2차원) 타입의 객체에서 사용 가능2) 행/열, 전체 셀에 원하는 연산 지원3) numpy의 sqrt과 같이 단일 연산인 경우 전체에 적용4) numpy의 min, max, average와 같이 집계되는 경우 사라질 축 지

[Pandas] 데이터프레임 연결/병합 : concat(), merge(), join(), append()
비슷한 듯 다른 문법이 너무 많다. 데이터프레임 병합하는 panda 함수들...1 concat() : 데이터프레임을 물리적으로 연결시켜 준다.인자값(파라미터)으로 리스트.아무 옵션 없이 합치면 각 데이터프레임의 인덱스를 그대로 사용하고 빈 부분은 NaN시리즈 데이터와

[Pandas] isin() - 각각의 요소가 데이터프레임 또는 시리즈에 존재하는지
\> 시리즈에 적용하는 것도 비슷하다. 레퍼런스나 다른 포스팅 검색해서 참고.Reference1) https://3months.tistory.com/283

[Pandas] 구간 나누기 - cut()과 qcut()
cut() : 균등한 길이의 그룹, 데이터의 분산에 따라 각각의 그룹마다 데이터 수가 다르게 나뉜다.qcut() : 같은 크기의 그룹, 표본 변위치를 기반으로 데이터를 나누어 적당히 같은 크기의 그룹으로 나눌 수 있다.\> 레퍼런스5 참고하면 좋을 것 같다. 쫌 헷갈리