raw data를 또 다른 형태로 전환하거나 매핑raw data에서 extract해서 transform 하고 load해서 Data Warehouse(표준화, 정형화 된 정리 된 창고)로 넣기Data Lake : Data Warehouse가 정형화 된 데이터를 쌓는 느낌

기온 변화 자료 csv파일image위 데이터에서, 제일 마지막 열이 최고기온인데, 문제는 다 문자열형임. 따라서 실수화 해줘야함 (float)위 데이터에서, 제일 마지막 열이 최고기온인데, 이 중에 NULL값이 있다면, -999같이 나오기 힘든 온도로 대체하면 됨시각화

'요약 정보 출력value_counts(dropna=False)dropna=False : 누락데이터 포함 옵션isnull()누락데이터면 True 반환, 유효한 데이터면 False 반환axis=0이 결국 행방향의 합 = 각 열의 합을 의미함.➡ 누락 데이터 개수의 총 합

서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 방법표준화 : 일정 기준 안으로 (z-score)정규화 : 0 ~ 1 값으로학생의 이름 정보(행, 관측대상)을 Observation이라고 하고, 관측대상들의 나이, 성별 등의 정보(열)을 Feature라고 함평균 0,