221006 TIL 시각화 및 전처리 2

지구데이터·2022년 10월 6일
0
post-thumbnail

시각화의 기본 요소: 데이터, x축, (y축)

  • x축(y축) 한 개만 써도 그릴 수 있는 그래프가 있기 때문에, 수치형/범주형 그래프 쓰임새를 알고 있어야 한다
  • 옵션을 모두 외울 수는 없다, tab키 도움말 적극 활용해라
  • %pwd 경로확인

Plotly

px.line()
px.bar()
px.histogram()
px.scatter()
px.violin
px.scatter_matrix()
px.strip
옵션 facet_col = "company" : 컬럼들 이름 company로 그래프 구분
옵션 facet_col_wrap=3 : 한줄에 3개씩 그리고 싶다
go.Figure
marginal_x="box", marginal_y="violin"

히스토그램 - 수치형

기타

fdr.DataReader()
데이터의 경우, 단순 df 말고 amd["change"] <-이런 식으로 넣을 수도
옵션

  • width=200
  • marginal="rug"
  • nbins=50
  • color="species"
  • points="all"

캔들스틱 차트도 외울 필요 x

수학 기호 찾는 사이트
http://detexify.kirelabs.org/classify.html
https://en.wikipedia.org/wiki/Help:Displaying_a_formula#Formatting_using_Tex

pandas(빠르다), seaborn, plotly(한글폰트 이슈x) 세 가지 시각화 라이브러리 추천한다
강사님은 seaborn에서 pandas! 왜냐면 렌더링이 빠르다 그치만 세가지 비슷비슷한 비율로 사용

전처리

df.duplicated() : 중복값 찾기
df = df.drop_duplicates() : 중복값 제거
df = df.set_index("연번") : set_index 를 통해 인덱스 값을 변경
df.sort_index(ascending=False) : sort_index 를 통해 인덱스값 기준으로 정렬

df.shape
df.dtypes
df.columns
df.index
df.info()
df.isnull()
df.describe()
df.unique()
df.nunique()
df["확진일"] = pd.to_datetime(df["확진일"])
df["연도"] = df["확진일"].dt.year
df["연도월"] = df["확진일"].astype(str).str[:7]

df["요일명"] = df["요일"].map(find_dayofweek) : map을 사용해서 요일 컬럼을 요일명으로 변환하고 "요일명"이라는 새로운 컬럼에 저장하기 (map 안에 만들어놓은 함수 넣기)
익명함수 lambda 매개변수 : 식 (return)

# 익명함수 쓰기!
# 간단한 함수의 경우 이렇게 하면 더 간단하다
df["요일명"] = df["요일"].map(lambda x : "월화수목금토일"[x])

한 개 변수 value_counts()
두 개 변수 pd.crosstab()

weekday_count = df["요일"].value_counts().sort_index()

bar과 hist는 다르다!

all_day.to_frame() : all_day 를 데이터프레임으로 변환
tolist() : 리스트로 변환

profile
멋쟁이가 될꺼야~

0개의 댓글