<혼자 공부하는 데이터분석 with 파이썬> 책을 보고 실습하며 중요한 내용을 정리했습니다.
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR') as f:
print(f.readline())
print(f.readline())
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR') as f:
print(f.readline())
print(f.readline())
CSV 파일을 데이터프레임으로 읽기: read_csv() 함수
판다스는 각 열에 다른 종류의 데이터가 저장되어 있을 때, 경고함 -> low_memory 매개변수를 False로 지정하여 파일을 나누어 읽지 않고 한 번에 읽게 하여 해결
import pandas as pd
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR', low_memory=False)
df.to_csv('ns_202104.csv')
with open('ns_202104.csv') as f:
for i in range(3):
print(f.readline(), end='')
-> 파이썬에서 함수(function)는 특정 작업을 수행하는 코드 블록을 의미합니다. 이 코드 블록은 이름을 가지며, 필요한 경우에 호출하여 실행할 수 있습니다. 함수는 프로그램을 모듈화하고 코드의 재사용을 촉진하는 데 사용됩니다.
매개변수(parameter)는 함수에 전달되는 입력 값입니다. 함수가 호출될 때, 이 매개변수에 실제 값이 전달되며, 함수 내에서 이 값을 활용하여 작업을 수행하거나 처리합니다.
def 더하기(a, b):
결과 = a + b
return 결과
결과값 = 더하기(3, 5)
print(결과값) # 출력 결과: 8
위의 코드에서 더하기라는 함수는 a와 b라는 두 개의 매개변수를 받아서 이를 더한 후 결과를 반환합니다. 함수를 호출할 때 3과 5가 각각 a와 b에 전달되고, 함수는 이를 더한 결과인 8을 반환합니다. 결과값을 변수에 저장하고 나중에 출력할 수 있습니다.
df.to_csv('ns_202104.csv', index=False)
ns_df.to_excel('ns_202104.xlsx', index=False)
-> 한글데이터 오류 자주 남
-> 해결법: xlsxwriter 패키기 사용하기
!pip install xlsxwriter
ns_df.to_excel('ns_202104.xlsx', index=False, engine='xlsxwriter')
CSV
: CSV 파일은 콤마(,)로 구분된 텍스트 파일이다. 한 줄이 하나의 레코드이며, 레코드는 콤마로 구분된 여러 필드 혹은 열도 구성된다. 데이터가 엑셀처럼 표 형태를 가져야 하기 때문에 레코드에 있는 필드 개수는 모두 동일해야 한다.
판다스
: 표 형식 데이터를 위한 편리한 도구를 다양하게 제공하는 강력한 데이터 분석 패키지다. CSV나 엑셀 파일을 읽거나 쓸 수 있으며 데이터 분석을 위한 많은 기능을 제공한다.
데이터프레임
: 판다스의 핵심 데이터 구조로 행과 열로 구성된다. CSV 파일이나 엑셀 파일로부터 데이터프레임을 만들 수 있다.
시리즈
: 1차원 배열과 흡사한 판다스의 객체이다. 시리즈는 한 종류의 데이터만 포함할 수 있다.
API란?
: Application Programming Interface는 두 프로그램이 서로 대화하기 위한 방법을 정의한 것이다. 인증된 URL만 있으면 언제든지 필요한 데이터에 편리하게 접근할 수 있는 방식이다.
: 프로그램 사이의 대화 방식을 결정한다.
: 다양한 API 중 HTTP 프로토콜을 사용하는 웹 기반 API가 널리 사용된다.
: 웹 기반 API는 주로 CSV, JSON, XML 형태로 데이터를 전달한다.
HTTP란?
: Hyper Text Transfer Protocol은 인터넷에서 웹 페이지를 전송하는 기본 통신 방법이다.
웹 페이지 문서: HTML
: Hypertext Markup Language는 웹 브라우저가 화면에 표시할 수 있는 문서의 한 종류이나 웹 페이지를 위한 표준 언어다.
: 마크업 언어라고 부르며