jupyter notebool 시작...단축키!Insert cell above : aInsert cell below : bdelete : d x 2cell 여러개 선택 : Shift + ClickRun Cells and Insert Below (Window) : Alt
💡 numpy
array는 python list와 유사하지만반복문 없이 array 이름을 이용한 수식으로 데이터 값에 변화를 줄 수 있다!조건을 부여함으로써 각 데이터들이 조건에 True인지 False인지 판별할 수 있다..where(array) 를 통해 True 값을 갖는 데이터들
2차원 형태의 데이터를 다루기 위한 자료형!column : 열, 데이터의 특징row/index : 행, 레코드column과 row에 숫자로 indexing 하는 numpy와 달리 각각 이름을 붙여 줄 수 있다. numpy는 모든 값이 같은 자료형이여야 한다. >>> 보
name : objectenglish_score : int64math_score : int64CSV : Comma-Seperated Values = 값들이 쉼표로 나뉘어져 있다.Header : 첫번째 줄 Column들의 이름pd.read_csv('파일경로/파일명.csv
DataFrame에서 원하는 데이터가 있는 부분을 선택하는 것!Series = Pandas의 1차원 자료형
위 방법들은 원본 파일 유지! DataFrame만 변형!행 추가열 추가행 삭제열 삭제여러 행 삭제열 설정여러 열 변경인덱스 이름 설정, 기존 인덱스인 플레이어 네임이 날아감 그래서 미리 기존 인덱스를 열 추가 해줘야함이렇게
🙄 Big DataFrame > > > > ![](https://images.velog.io/images/wumusill/post/03ac3da1-da60
❗ 분석에 도움이 된다.❗ 리포팅에 도움을 준다.✔ 시작 전 필수 코드 : %matplotlib inlinedf.plot(kind = 'line') : parameter = kind but kind = 'line' 기본값으로 생략가능특정 Column을 보고 싶으면 y
🙄 파이 그래프 🙄 히스토그램 > > 🙄 박스 플롯 ![](https://images.velog.io/images/wumusill/post/4453d5d3-1b58-4c95
🙄 Seaborn 이란? >👉 다양한 그래프를 제공하는 라이브러리 🙄 KDE Plot 🙄 KDE Plot이란? >👉 Kernel Densiry Estimation : 갖고 있는 데이터 기반으로 추정치로 확률밀도 함수 출력 >>> 울퉁불퉁한 데이터를 매끄
..
👉
👉 기존 DataFrame, 새로운 Column을 추가함으로써 새로운 인사이트를 얻을 수 있다.
➡ 아무리 좋은 알고리즘을 쓰더라도 데이터의 퀄리티가 나쁘면 안좋은 결과로 이어진다.대부분 주어지는 데이터의 경우 완벽하지 않다.좋은 결과를 위해 좋은 데이터가 무엇인지를 알아야하고 맘에 안드는 데이터들의 퀄리티를 높이는 방법을 알아야한다.완결성 (Completenes
이상점 (Outlier)이란?다른 값들과 너무 동떨어져 있는 데이터이상점을 판단하는 기준은 여러가지이상점 (Outlier)이란?다른 값들과 너무 동떨어져 있는 데이터이상점을 판단하는 기준은 여러가지이상점 (Outlier)이란?다른 값들과 너무 동떨어져 있는 데이터이상점