\-다차원 배열을 효과적으로 처리\-List에 비해 빠르고 강력한 기능.shape : 각 차원의 크기 알려줌, .dtype : 자료형 알려줌, .ndim : 차원\-> dtype은 특정 데이터를 해석하기 위해 필요한 정보 담고 있는 특수 객체array.astype()
일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조index(색인)이라 하는 배열의 데이터 연관된 이름 가지고 있다.Series는 산술 연산에서 색인과 라벨을 자동 정렬 (join과 비슷)Series 객체와 색인 모두 name 속성 있다.스프레드시트 형식의 자료구조
산술 데이터에 한해 pandas는 누락된 데이터 NaN으로 취급파이썬의 내장 None 값 또한 NAdropna누락된 데이터가 있는 축을 제외fillna누락된 데이터를 대신할 값을 채우거나 'ffill', 'bfill'같은 보간 메서드를 적용isnull누락되거나 NA인
행과 열로 구성된 사각형 모양의 표.열은 속성. column or varaible.행은 각 개체의 정보. row or case.엑셀 : read_excel()header= None 하면 첫번째 행을 변수명이 아닌 데이터롤 인식sheet_name=' ' 특정 시트의 데이
데이터 정제 결측치, missing value > - np.nan() .isna() : 결측치 True 표시해 출력 .dropna() : 결측치가 있는 행 제거 subset = [] : [ ] 에서만 결측치 제거 변수 지정 안하면 하나라도 결측치면 제거. pd.
그래프 만들기 산점도 - 변수 간 관계 표현, 연속값으로 된 두 변수의 관계 표현할 때 사용 >- seaborn.scatterplot() 막대 그래프 집단 간 차이 표현할 때 주로 쓰임 > - seaborn.barplot() 빈도 막대 그래프 sns.countplo
문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법문장을 구성하는 어절들이 어떤 품사인지 파악KoNLPy 패키지 이용하면 한글 텍스트 형태소 분석 가능파일 불러오기 - 불필요한 문자 제거하기 - 명사 추출하기 - 단어 빈도표 반들기 - 단어 빈도 막대 그래프
: 데이터를 요약해 설명하는 통계 분석 기법: 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산 하는 통계 분석 기법우연히 나타날 확률이 작다면 통계적으로 유의하다\_statistically significant우연히 나타날 확률이 크다면 통계적으로 유의하지 않
값을 입력하면 정해진 규칙에 따라 계산한 예측값 출력, 다른 점은 컴퓨터가 패턴을 찾아 스스로 규칙 정한다.: 예측하는 데 활용하는 변수 또는 모델에 입력하는 값.: 예측하고자 하는 변수 또는 모델이 출력하는 값순서대로 주어진 질문에 y/n로 답하면 마지막에 결론 얻음
대표적인 예제인 타이타닉 생존자 예측 경진대회를 바탕으로 데이터 분석 학습.1\. 데이터의 행과 열 확인하기2\. 데이터 내용 미리보기3\. 데이터 속성 확인하기데이터의 통계량 확인하기카테고리 변수 확인하기결측치 확인하기\_DF에서 임의의 열 추출하기시각화하고 싶은 데