빅데이터 라이브러리 연결 및 사용

장민식·2021년 12월 3일
0

빅데이터

목록 보기
2/2

1.아나콘다 설치후 아나콘다 cmd창을 통해 주피터를 설치한다
2.conda create -n pybook python=(파이썬 버전과 동일하게 설정)
3.pip install jupyter(주피터 인스톨하기)
4.아나콘다cmd 창에 jupyter notebook 입력

==라이브러리 설치==
pip install pandas numpy matplotlib

==주피터 shell 단축키==
※참고:help 속성값을 통해 사용자가 바꿀수 있음※

import 하는법
import pandas as pd(import pandas=판다스를 임포트한다 as pd=판다스를 pd라고 정의한다)

pandas 사용
(데이터 분석 라이브러리임)

names=['Bob','Jessica','Mary','John','Mel']
births=[968,155,77,578,973]
custom=[]

BabyDataSet=list(zip(names,births))#zip명령어 를 통해 배열을 묶고자할때 사용
df=pd.DataFrame(data=BabyDataSet,columns=['Names','Births'])
#df=데이터프레임(데이터 객채를 만들어주는 클레스),columns(제목||이름)
df.head()(데이터프레임 상단부만 출력)
df.dtypes(데이터 프레임의 열 타입 정보 출력)
df.index(인덱스 정보)
df.columns(열의 형태 정보)
df['Names'](데이터 프레임 하나의 열을 선택)
df[0:3](0~3번쨰 인덱스 선택)
df[df['Births']>100](필터링 기능:벌쓰 열이 100보다 큰 데이터 선택)
df.mean() (데이터 프레임 평균값 계산)

넘파이 라이브러리 사용
import numpy as np(의미는 위와 동일)

numpy 사용
(숫자를 계산하고 출력하는 것)

arr1=np.arange(15).reshape(3,5)(arange=배열 갯수,reshape(3행,5열)
arr1
arr1.shape(배열 정보 출력)
arr1.dtype(arr1의 데이터타입 정보)
arr3=np.zeros((3,4))(np.zeros=(3행,4열인 배열에 0을 다채운다)
arr3
arr4=np.array([
[1,2,3],
[4,5,6]
],dtype=np.float64)(float=나누기,곱하기 실수형)

arr5=np.array([
[7,8,9],
[10,11,12]
],dtype=np.float64)

print("arr4+arr5= ")
print(arr4+arr5,"\n")
print("arr4-arr5= ")
print(arr4-arr5,"\n")
print("arr4arr5= ")
print(arr4
arr5,"\n")
print("arr4/arr5= ")
print(arr4/arr5,"\n")

Matplotlib 라이브러리 사용
import matplotlib.pyplot as plt()

Matplotlib 사용
y=df['Births']
x=df['Names']

#막대 그래프 출력
plt.bar(x,y)#막대 그래프 객체 생성
plt.xlabel('Names')#x축 제목
plt.ylabel('Births')#y축 제목
plt.title('Bar plot')#그래프 제목
plt.show()#출력

#랜덤 추출 시드를 고정함
np.random.seed(19920613)

#산점도 데이터 생성
x=np.arange(0.0,100.0,5.0)
y=(x1.5)+np.random.rand(20)50

#산점도 데이터를 출력
plt.scatter(x,y,c="b",alpha=0.5,label="scatter point")
plt.xlabel("x")
plt.ylabel("y")
plt.legend(loc='upper left')
plt.title('Scatter plot')
plt.show()

profile
피나게노력중

0개의 댓글