DataFrame
Series
sep
을 이용해 delimiter설정 가능. default = ','titanicTrain = pd.read_csv('../train.csv')
titanicTrain.head(3)
dic1 = {'Name': ['Chulmin', 'Eunkyung','Jinwoong','Soobeom'],
'Year': [2011, 2016, 2015, 2015],
'Gender': ['Male', 'Female', 'Male', 'Male']
}
# 딕셔너리의 키값이 컬럼명이 된다.
# 딕셔너리를 dataFrame으로 변환
dfDic = pd.DataFrame(dic1)
print(dfDic)
print("#"*30)
# 새로운 컬럼명 추가
dfDic = pd.DataFrame(dic1, columns=['Name','Year','Gender','Age'])
print(dfDic)
print("#"*30)
# 인덱스를 새로운 값으로 할당
dfDic = pd.DataFrame(dic1, index=['one','two','three','four'])
print(dfDic)
print("#"*30)
# 컬럼정보
print(dfDic.columns)
# 인덱스 정보
print(dfDic.index)
# 실제 인덱스 array조회
print(dfDic.index.values)
series =titanicTrain['Name']
print(series.head())
print('type: ' , type(series)) # type: <class 'pandas.core.series.Series'>
series2 = titanicTrain[['Name', 'Age']]
print(series2.head())
print('type: ' , type(series2)) #type: <class 'pandas.core.frame.DataFrame'>
print("#"*30)
# 1개여도 배열 안에 넣으면 DataFrame 타입으로 리턴
series =titanicTrain[['Name']]
print(series.head())
print('type: ' , type(series)) #type: <class 'pandas.core.frame.DataFrame'>
print("#"*30)
print(titanicTrain.shape)
print(series.shape)
print(titanicTrain.info())
print(titanicTrain.describe())
print("#"*30)
placeCount = titanicTrain['Age'].value_counts()
print(placeCount)
print("#"*30)
by
=정렬할 컬럼, ascending
=True/Falseprint(titanicTrain.sort_values(by=['Name','Age'],ascending=False).head())
dfList = pd.DataFrame(list, columns=colNames)
dfArray = pd.DataFrame(array, columns=colNames)
dfDict = pd.DataFrame(dict)
DataFrame -> array -> list 순으로 변환
ndarray.tolist()
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
axis
inplace
DataFrame, Series의 레코드를 고유하게 식별하는 객체
DataFrame.index, Series.index를 통해 추출
Series 객체에 연산함수를 적용할 때 Index는 연산에서 제외됨. 오직 유니크 식별용으로 사용
reset_index()
: 새롭게 인덱스를 연속 숫자형으로 할당하며 기존 인덱스는 index
라는 새로운 컬럼 명으로 추가