데이터 분석 - 1

CYSSSSSSSSS·2023년 8월 14일
0

데이터분석

목록 보기
1/19

데이터 프레임 변경

  • 열 추가 혹은 열 삭제 방법
  • 값 추가 혹은 값 삭제 방법

열 이름 변경

rename

  • 지정한 열 이름 변경
  • 모든 칼럼을 다 변경하는 방법이다 (칼럼 수 가 같아야 한다)
# rename() 함수로 열 이름 변경
data.rename(columns={'DistanceFromHome' : 'Distance', 
                    'EmployeeNumber' : 'EmpNo',
                    'JobSatisfaction' : 'JobSat',
                    'MonthlyIncome' : 'M_Income',
                    'PercentSalaryHike' : 'PctSalHike',
                    'TotalWorkingYears' : 'TotWY'}, inplace=True)

# 확인
data.head()
  • columns 안에 dict 형태로 "기존의 컬럼 이름" : "변경할 칼럼 이름 "
  • rename 안에 inplace 옵션을 True 로 설정해야 실제 반영에 들어갑니다.

열 추가

맨 뒤에 추가

  • df['새로운 칼럼'] = df 의 기존의 칼럼의 값으로 연산을 한다.

insert

  • df.insert(위치 , '컬럼 이름' , 칼럼 연산)

열 삭제

df.drop

  • df.drop('삭제할 칼럼 이름' , axis = 1 , inplace = True)

  • axis = 1 이면 열을 삭제 0 이면 행 삭제

  • inplace = True 는 실제로 데이터프레임에 적용 하는 것이다

  • 삭제할 칼럼이 2개 이상일 경우 리스트 로 만든다 ['칼럼1' , '칼럼2'.....]

값 변경

  • 데이터 를 변경 할때는 여러가지 방법이 있다.

컬럼 = 값

data2['칼럼 이름'] = value
  • 칼럼 이름 = 값을 넣으면 모든 열에서 자동으로 초기화가 된다.

loc

data2.loc [조건 , "칼럼 이름"] = value
  • 조건에 맞는 컬럼만 변경한다.

np.where

data2['칼럼명'] = np.where(data2['칼럼명']조건 , True , False)
  • np.where(조건에 맞는 칼럼 을 True 일 경우 , False 인 경우를 나눠서 적는다)

map

  • 범주형 값을 다른 값으로 변경
  • 남/녀 , 상/중/하 , 고/저
data['Gen'] = data['Gen'].map({'Male' : 1 , 'Female' : 0})
data.head()

cut

  • 함수를 이용하여 숫자형 변수를 범주형 변수로 변환할 수 있습니다.
  • 범주형으로 바꿀때 구간을 나누는 작업을 해야 한다.
age_group = pd.cut(data2['Age'] , 3)
age_group.value_counts()

  • 구간을 labels 를 통해 이름을 붙여줄수 있다 (범주화)
age_group = pd.cut(data2['Age'] , 3 , labels = ['a','b','c'])
age_group.value_counts()

  • 내가 원하는 구간으로 자를수도 있다.
  • 구간을 정해줄떄는 bins 라는 옵션을 사용해야 한다.
# 나이를 다음 구간으로 분할합니다.
# 'young'  : =< 40 
# 'junior' : 40 <   =< 50
# 'senior' : 50 < 

age_group = pd.cut(data2['Age'], bins =[0, 40, 50, 100] , labels = ['young','junior','senior'])
age_group.value_counts()
profile
개발자 되고 싶어요

0개의 댓글