🐼Pandas

최지안·2023년 10월 6일

Python 시계열 데이터 분석

목록 보기

2/5

dataframe 생성

pd.DataFrame(’data’, ‘index’, ‘columns’)

#ex)
df = pd.DataFrame(data=randn, index='A B C'.split(), columns='W X Y'.split())

	W	X	Y
A	1	2	3
B	4	5	6
C	7	8	9

#ex)
df['W', 'Y']
A  1  3
B  4  6
C  7  9

열 합치기

#ex)
df['NEW'] = df['X'] + df['Y']

	W	X	Y	NEW
A	1	2	3	5
B	4	5	6	11
C	7	8	9	17

df.drop(’이름’,axis = 0 or 1, inplace=True)

axis: 0 → 행, axis: 1 → 열
inplace: 변경 내용을 저장할 것인지 여부

#ex)
df.drop('NEW', axis=1, inplace=True)

data filtering

	W	X	Y
A	1	2	3
B	4	5	6
C	7	8	9

특정 조건에 해당하든 열 필터링

#ex)
df['W'] > 4

# A False
# B False
# C True

#ex)
df[df['W'] > 4]

	W	X	Y
C	7	8	9

#ex)
df[df['W'] > 4]['Y']

	Y
C	9

교집합

#ex)
cond1 = df['W'] > 2
cond2 = df['Y'] > 8

df[(cond1) & (cond2)]

	W	X	Y
C	7	8	9

index

#ex)
df.reset_index()
#df.set_index() 인덱스 이름 지정 가능

index		W	X	Y
0	A	1	2	3
1	B	4	5	6
2	C	7	8	9

df 정보 보기

df.info()

data 타입, item 개수, 이름, 저장공간 등을 나타냄

df.dtypes()

data의 자료형을 나타냄

df.describe()

df에 대한 다수의 집계 메소드 반환
개수, 평균, 분산, 사분위

결측치 다루기

	A	B	C
0	1.0	5.0	1
1	2.0	NaN	2
2	NaN	NaN	3

df.dropna(”axis”, ”thresh”)

결측치를 포함한 행 제거

	A	B	C
0	1.0	5.0	1

axis = 0 → 행 제거
axis = 1 → 열 제거
thresh → 제거하려고 하는 결측치의 최소 개수
ex) df.dropna(thresh=2)

	A	B	C
0	1.0	5.0	1
1	2.0	NaN	2

df.fillna(value = ‘ ’)

결측치를 value 값으로 채움
df.fillna(df.mean()) 과 같은 형식으로 이용
df['A'].fillna(value=df['A'].,mean())

기타 method

df.unique()

고윳값 배열 출력

df.nunique()

고윳값의 개수 출력

df.value_counts()

각각의 고윳값과 발생 횟수 출력

최지안

이전 포스트

🔢numpy

다음 포스트

🐼Pandas

Python 시계열 데이터 분석

dataframe 생성

pd.DataFrame(’data’, ‘index’, ‘columns’)

열 합치기

df.drop(’이름’,axis = 0 or 1, inplace=True)

data filtering

특정 조건에 해당하든 열 필터링

교집합

index

df 정보 보기

df.info()

df.dtypes()

df.describe()

결측치 다루기

df.dropna(”axis”, ”thresh”)

df.fillna(value = ‘ ’)

기타 method

df.unique()

df.nunique()

df.value_counts()

🔢numpy

📊데이터 시각화

0개의 댓글