버전 업그레이드
-> !pip install seaborn —upgrade
후에 런타임 다시 시작 // 캐시 삭제 후 재 실행
.head() 와 .tail() 의 코드 동작 방법
-> iloc[:5]
iloc[-5:]
.sample() ->랜덤 하나
특정버전으로 다운받기
-># !pip install pandas-profiling==3.1.0
얼마나 뾰족한가 -> Kurtosis
얼마나 몰려있나 -> Skewness
distinct values - > 유니크값
추상화된 도구를 통해 기술통계를 구함.
오버뷰 -
variables 수치형과 범주형 값의 차이
interactions -
추상화된 도구를 사용하게 되면 단점?
대용량 데이터에 사용하기 어렵다
큰 용량 데이터로 리포트를 출력하려고 할 때 오래 걸립니다.
결측치보기 ->df.isnull()
결측치 합계 -> df.isnull().sum()
결측치값의 비율 ->df.isnull().mean()
cmap -> 컬러맵스
df["mpg"].unique()를 하는 이유 - > 수치형 변수인지 범주형 변수인지 확인해 보기 위해 출력해 봤습니다.
왜도
첨도
KDE는 연속된 확률에 대한 밀도를 표현
col -> origin 종류에 따라 그래프를 나눈 것, 서브플롯 생성
kde에서 True면 출력, False면 출력 ㄴㄴ
displot = 분포를 표현
hist => 빈도, kde=> 밀도 == 적분했을 때 1이 되는 값
reg, residplot 의 차이? -> reg의 직선이 resid의 0축으로 나타난 것 같습니다.
(df_num – df_num.mean())/df_num.std() -> 표준화한다. 정규화 한다.
상관관계
왜 상삼각 대각행렬을 만들었을까요? - 히트맵에서 자기자신과의 상관관계와 중복값을 지우기 위해서
np.triu : matrix를 상삼각행렬로 만드는 numpy math
[1 2 3] np.triu [1 2 3][4 5 6] -------> [0 5 6][2 3 4] [0 0 4]
np.ones_like(x) : x와 크기만 같은 1로 이루어진 array를 생성
수식적으로 어려워 보일수도 있지만 간단함
자기상관계수는 대각행렬을 기준으로 대칭되어 같은 값이 출력되므로,
이대로 전체를 heatmap을 plot하면 오히려 가독성이 떨어질 수 있음
이에, 가독성을 높이기 위해 대각행렬 기준으로 한쪽의 데이터들만 masking 기법을 통해 plot하여
가독성을 높이는 효과를 가질수 있음
np.ones_like로 heatmap의 마스크값 구하기
mask