나의 하루 회고

오늘은 스파르타코딩클럽 내일배움캠프 본캠프가 시작한 날이었다.
오전부터 간단한 OT와 팀 조성과 미니 프로젝트 발제하는 시간을 가졌다.
팀원들과 조율하여 금융데이터를 다뤄보기로 했고, 금 시세와 원달러 환율 변동 추이의 상관관계와 경제 불안정성을 확인해보고자 했다.
오늘은 데이터 수집하고 간단한 데이터 전처리를 해볼 수 있는 시간이 있었고, 사전 강의도 마치고 문제풀이도 해왔지만 잘 생각나지 않아서 또 검색하여 시도하는 일이 적잖이 있었다.
정확하게 안다는건 어려운 일인 것 같았다. 그래도 팀으로 진행함에 있어 조금은 든든함도 생겼다.

파이썬으로 간단히 진행하다가 파이썬은 Colab이나 vscode로 하면 되겠는데 sql을 프로그램으로 하는 방법을 전혀 모르겠어서 설치부터 셋팅까지 너무 많은 시간을 할애했고,
아직 해결하지 못해서 SQL로 시도해보지 못했다. 나는 Mysql로 진행하려 했는데 맥북 m1pro를 사용하고 있는데 mysql이 자꾸 시스템 종류가 되는 오류가 있어서 힘들었다.
프로그램 문제 해결을 차차 계속 시도해보아야겠다.

오늘 진행한 부분에 있어서만 기록해보자

Python 데이터 불러오기

# 라이브러리 호출
import pandas as pd
import numpy as np
# csv파일 불러오기
data = pd.read.csv('파일경로.csv')

데이터 전처리 : 문자데이터 숫자형 변환 & 컬럼에 특정 문자나 기호 삭제하기 & 컬럼 삭제하기 & 컬럼명 수정 & 데이터 조인하기

# 숫자형 변환 : astype을 사용하여 괄호안에 str(문자), int(정수), float(실수)로 변환이 가능
data['원/g_종가'].astype(int)
# 컬럼에 특정 문자나 기호 삭제하기 : str.replace('대체할 문자', '대체될 문자')를 사용하여 특정 문자나 기호를 대체할 수 있는데 이 함수를 이용하여 대체될 문자를 공백으로 두어 삭제도 가능하다.
data['원/g_종가'].str.replace(',', '')
# 컬럼 삭제하기 : drop 함수를 이용하여 특정 컬럼을 삭제한다. 컬럼이 두개 이상일 경우에는 1번처럼 [대괄호]안에 나열해준다.
# axis는 삭제하는 방향을 설정하는데 0은 row방향, 1은 컬럼방향이다. row를 삭제하려면 3번과 같이 인덱스를 지정해주어도 된다.
1. data.drop(['원/달러(시가)', '원/달러(고가)', '원/달러(저가)'], axis =1)
2. data.drop('원/달러(시가)', axis =1)
3. data.drop([0,1,2], axis = 0)
# 컬럼명 수정 : rename 함수를 이용하여 컬럼을 중괄호 안에 {'대체할 컬럼명' : '대체될 컬럼명'}을 적어주면 된다.
# inplace=True 추가해주면 data2에 수정이 바로 적용된다.(안적으면 기본으로 False)
data2.rename(columns= {'date' : '일자'}, inplace=True)
# 데이터 조인하기 : pd.merge를 이용하여 조인할 두개의 테이블 데이터를 나열
# on='특정 컬럼을 기준으로' 라는 의미인데 여기서는 두 데이터의 같은 일자별로 지정된 금액을 나열하기 위해서 날짜데이터로 조인했다. 두 데이터의 컬럼명이 다르다면 ['일자', '날짜'] 로 각각 지정도 가능하다.
# how='조인방식' : 수학의 교집합('inner'), 합집합('outer')으로 공통된 것만 또는 모두 다 나열할 수도 있고, left, right로 기준열을 정하여 기준열은 모두 표현할 수도 있다.(존재하지 않는 값은 NaN표시)
pd.merge(data, data2, on="일자", how='inner')

😃오늘도 부족함이 많아 채울 수 있음에 감사합니다.

profile
Data analyst를 향해 도전하는 이야기

0개의 댓글