# pd.melt 를 사용하며, 녹인 데이터는 df_first_melt 변수에 담습니다.
df_first_melt = pd.melt(df_first, id_vars="지역")
df_first_melt
옵션
id_vars=None,
value_vars=None,
var_name=None, value_name='value'
id는 녹이지 않고 기준이 되는 남길 값
value는 column에서 값으로 녹일 값
분양가격
평균 분양가격을 구해서 제공하고 있다
근데 한번더 평균
bar plot에서 estimator ="mean" 이게 기본값으로 되어있음 (그래프마다 표현되는 게 다르니까 다 그런 게 아닌듯)
연도별 각 지역의 평균평당분양가격(평당분양가격은 이미 개별 관측치가 x, 코로나가 개별 관측치)을 다시 평균 내서 시각화
집계값: 계산을 했다 aggregation (판다스 에서는 agg) = 계산한다
df.groupby("지역명")["평당분양가격"].agg(["mean","sum","count"])
from glob import glob
file_name = glob("data/kosis*.csv")[0]
file_name
plt.figure(figsize=(15,6))
sns.heatmap(table_year.T, annot=True, fmt=",.0f", cmap='Greens')
# annot은 과학적 표기법 출력을 의미하고, fmt는 표기법의 형식
# annot=True의 사용하여 각 셀에 값을 표기
# fmt는 문자열을 지정해주는 파라미터입니다
# fmt=".0f"은 소수점(.) 0번째 자리까지만 출력하여 정수로 표시합니다
px.histogram(df_country,x="달러", y="국가권역", histfunc="sum", color="항목", barmode="group")
[ ] : 일치시킬 문자 세트의 패턴
[가나다] : 가 or 나 or 다 중에 하나를 포함하고 있는지
[가-힣] : 한글 가부터 힣까의 문자 중 하나를 포함하고 있는지
[0-9] : 0~9까지의 숫자 중 하나를 포함하고 있는지
[^0-9] : 숫자를 포함하고 있지 않음
[^가-힣] : 한글이 포함되어 있지 않음
[가-힣+] : 한글이 하나 이상 포함되는지
px.histogram(df_country,x="달러", y="국가권역", histfunc="sum")