# sort_values

Pandas기초-3. 타이타닉 데이터 분석(조회,정렬)
변수.head() 변수 변수.head(10) 변수.tail(10) 변수.info() 변수.describ() 각 컬럼에 대한 요약적인 통계를 제공한다. include='object' 요약치 통계 확인 
[230131] 멋쟁이사자처럼 AI SCHOOL 8기 '서울시 코로나 데이터 EDA(2)_박조은강사님' 복습
📝Today I learned 🚀 TIL 목차 🚀 > EDA 1) 두 개의 변수에 대한 빈도수 구하기 2) Boolean Indexing으로 특정 조건 값 찾기 3) pivot_table 4) group by . 서울시 코로나 현황 데이터 EDA(2) . EDA 1. 두 개의 변수에 대한 빈도수 구하기 🔹 pd.crosstab() 🔹 전치행렬을 사용해야하는 경우 : '월'을 기준으로 2020년과 2021년의 확진자수를 확인하고 싶다면 .T를 활용해 전치행렬로 만들어주면 된다. : 아니면 처음부터 ym = pd.crosstab(df["월"], df["연도"])로 코드를 짜거나 와 sortindex() df.sort_values(by='sum',ascending=False)['name'].head(3).values.tolist() sort_values() 어떤 컬럼의 값을 기준으로 데이터를 정렬한다. 괄호에 기준이 되는 컬럼을 by=’~’로 설정 sort_index() 인덱스를 기준으로 정렬(ascending=False로 내림차순 정렬 가능) 가설 검정 방법 1. 귀무가설과 대립가설을 설정한다. 2. 유의수준을 정한다. 3. 표본을 수집해서 검정통계량을 계산하고 그에 따른 p값을 계산한다. 검정통계량 : 수집한 데이터를 이용해서 계산한 확률변수 확률변수 : 특정 확률로 발생하는 각각의 결과를 수치값으로 표현한 변수. 4. 계산한 p값이 유의수준보다 작으면 귀무가설 기각, p값이 유의수준보다 크면 귀무가설 채택 보통 유의수준을 0.05,
[책] 선형대수와 통계학으로 배우는 머신러닝 with 파이썬 - 챕터 6.2
안녕하세요 장철원님이 저자이신 **책을 실습과 이론 부분으로 나누어서 매일 따라하고 있는데요 실습 부분인 챕터 6을 따라하던 중 6-2-2부분인 클래스 라벨링 부분이 다르게 되어 있더라구요. 그래서 이 부분을 헤매시는 분들께 도움을 드리고자 포스팅을 하게 되었습니다. > 모든 내용은 앞서 언급한 책을 보며 따라한 코드이며, 오직 학습 목적으로 포스팅함을 알려드립니다. 1. 데이터 확인 일단 데이터는 이렇게 생겼습니다. .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align:
python pandas dataframe 데이터 문자열 다루기
데이터 null 찾기 dataframe에 null인 항목이 있는지 찾기 어느 column인지 찾기 리뷰가 적혀있는 document 열에서 Null 값을 가진 샘플이 총 1개가 존재 해당 데이터 row 확인 출력 결과는 위와 같습니다. Null 값을 가진 샘플을 제거하겠습니다. traindata = traindata.dropna(how = 'any') # Null 값이 존재하는 행 제거 print(train_data.isnull().values.any()) # Null 값이 존재하는지 확인 False 데이터 소문자로 바꾸기 lower()는 문자열의 모든 문자를 소문자로 바꾼다. 예를 들어 “Ups AND Downs”.lower()는 ‘ups and downs’로 계산된다. • upper()는 문자열의 모든 문자를 대문자로 바꾼다. 예를 들어 “Ups AND Downs”.upper()는 ‘UPS AND DOWNS’로 계산된다.