데이터 분석 - 1

CYSSSSSSSSS·2023년 8월 14일

pandas 데이터 분석

데이터분석

목록 보기

1/19

데이터 프레임 변경

열 추가 혹은 열 삭제 방법
값 추가 혹은 값 삭제 방법

열 이름 변경

rename

지정한 열 이름 변경
모든 칼럼을 다 변경하는 방법이다 (칼럼 수 가 같아야 한다)

# rename() 함수로 열 이름 변경
data.rename(columns={'DistanceFromHome' : 'Distance', 
                    'EmployeeNumber' : 'EmpNo',
                    'JobSatisfaction' : 'JobSat',
                    'MonthlyIncome' : 'M_Income',
                    'PercentSalaryHike' : 'PctSalHike',
                    'TotalWorkingYears' : 'TotWY'}, inplace=True)

# 확인
data.head()

columns 안에 dict 형태로 "기존의 컬럼 이름" : "변경할 칼럼 이름 "
rename 안에 inplace 옵션을 True 로 설정해야 실제 반영에 들어갑니다.

열 추가

맨 뒤에 추가

df['새로운 칼럼'] = df 의 기존의 칼럼의 값으로 연산을 한다.

insert

df.insert(위치 , '컬럼 이름' , 칼럼 연산)

열 삭제

df.drop

df.drop('삭제할 칼럼 이름' , axis = 1 , inplace = True)
axis = 1 이면 열을 삭제 0 이면 행 삭제
inplace = True 는 실제로 데이터프레임에 적용 하는 것이다
삭제할 칼럼이 2개 이상일 경우 리스트 로 만든다 ['칼럼1' , '칼럼2'.....]

값 변경

데이터 를 변경 할때는 여러가지 방법이 있다.

컬럼 = 값

data2['칼럼 이름'] = value

칼럼 이름 = 값을 넣으면 모든 열에서 자동으로 초기화가 된다.

loc

data2.loc [조건 , "칼럼 이름"] = value

조건에 맞는 컬럼만 변경한다.

np.where

data2['칼럼명'] = np.where(data2['칼럼명']조건 , True , False)

np.where(조건에 맞는 칼럼 을 True 일 경우 , False 인 경우를 나눠서 적는다)

map

범주형 값을 다른 값으로 변경
남/녀 , 상/중/하 , 고/저

data['Gen'] = data['Gen'].map({'Male' : 1 , 'Female' : 0})
data.head()

cut

함수를 이용하여 숫자형 변수를 범주형 변수로 변환할 수 있습니다.
범주형으로 바꿀때 구간을 나누는 작업을 해야 한다.

age_group = pd.cut(data2['Age'] , 3)
age_group.value_counts()

구간을 labels 를 통해 이름을 붙여줄수 있다 (범주화)

age_group = pd.cut(data2['Age'] , 3 , labels = ['a','b','c'])
age_group.value_counts()

내가 원하는 구간으로 자를수도 있다.
구간을 정해줄떄는 bins 라는 옵션을 사용해야 한다.

# 나이를 다음 구간으로 분할합니다.
# 'young'  : =< 40 
# 'junior' : 40 <   =< 50
# 'senior' : 50 < 

age_group = pd.cut(data2['Age'], bins =[0, 40, 50, 100] , labels = ['young','junior','senior'])
age_group.value_counts()

CYSSSSSSSSS

개발자 되고 싶어요

다음 포스트

데이터 분석 - 1

데이터분석

데이터 프레임 변경

열 이름 변경

rename

열 추가

맨 뒤에 추가

insert

열 삭제

df.drop

값 변경

컬럼 = 값

loc

np.where

map

cut

데이터 분석 - 2

0개의 댓글