# .groupby

Pandas기초-9.문제풀이
목표: 타이타닉호 승객데이터를 기반으로 생존에 영향을 미치는 요인을 분석합니다. 주요 과제: 기본 EDA (Exploratory Data Analysis) 데이터 전처리 (불필요한 데이터 삭제, 추가, 변경) 인사이트 발굴 변수명: df >데이터는 총 몇개의 행과 열로 이루어졌는지 확인하라. > column별 데이터 확인 (dtype,갯수 등) > 컬럼별 결측치가 몇 개 있는지 확인하라. > 생존자와 사망자의 분포를 확인하라 'survived' = 0이면 사망 1이면 생존 분포확인 = 갯수 > 항구별 생존자 인원을 확인하라. 항구 컬럼 = embarked = C , Q , S 생존자인지 확인컬럼 = 'survived' > 항구별 생존자의 생존률을 구하라 기준컬럼: embarked 항구별 조건컬럼: survived 생존했는지 안했는지 생존률 : 평균 > 성별 생존률의 합계와 평균치를 동시에 출력하라. 
Pandas기초-7. Groupby그리고 피벗테이블
.apply(함수적용) > 컬럼내에 항목이 몇 가지 있다면, > 함수를 통해 항목 -> 다른 이름으로 변경 가능하다. df 변수의 who 컬럼 항목이 man, woman, chile 이렇게 세 가지 있다. 한국말로 남자, 여자, 아이 를 표기되게 바꿀 경우 함수와 .apply(함수) 를 통해 바꿀 수 있다. .apply(lambda함수) > 간단하게 lambda함수로 바꾸어보자! 문제: 풀이: 
03. 캐글 설문조사 분석하기
캐글에서 실시한 설문조사 내용을 시각화해보고 간단히 분석해보려 한다. 박조은 님의 인프런 강좌를 기반으로 한 내용이다. " 캐글에선 해마다 설문조사가 올라옵니다. 세계적으로 어떤 기술들이 많이 쓰이는지 등 현황을 볼 수 있어 데이터사이언스 공부를 시작하는 사람들이 보면 도움이 됩니다." 캐글 소개 캐글은 전 세계 데이터 전문가들이 경쟁하는 플랫폼이다. : 다양한 경진대회. 상금, 상, 리크루팅 등의 보상 있음. : 다양한 데이터셋 제공. 코로나 데이터 인기 많았음. : 다른 사람들의 분석사례를 볼 수 있음. 'most votes'로

14. 그룹화
동일한 값을 가진 것들끼리 합쳐서 평균 등의 통계를 계산하기 위해 '그룹화'를 사용한다. "다소 복잡하니 복습 잘 하시길!!" 데이터 준비 (이전과 동일) 그룹화 by 학교 .groupby() : 입력된 카테고리에서 같은 값끼리 그룹으로 묶어줌. .get_group() : 입력된 그룹의 데이터를 출력해줌. .mean() : 계산 가능한 데이터들의 평균값을 "그룹 별로" 계산해줌. ![](https://velog.velcdn