책 <혼자 공부하는 데이터분석 with 파이썬>: 64p - 88p

르네·2023년 9월 21일
0

Python

목록 보기
10/45

<혼자 공부하는 데이터분석 with 파이썬> 책을 보고 실습하며 중요한 내용을 정리했습니다.

1.3 이 도서가 얼마나 인기가 좋을까요?

코랩에서 데이터 확인하기

  • 인코딩 형식 지정하기(UnicodeDecodeError 시)
    : open() 함수로 파일을 읽을 때 encoding 매개변수로 인코딩 형식을 'EUC-KR'로 지정하면 된다.
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR') as f:
  print(f.readline())
  print(f.readline())
  • 아주 큰 CSV 데이터를 열어 볼 때는 파이썬의 open() 함수와 readline() 메서드로 처음 몇 줄을 출력하면, 파일 내용을 빠르게 확인할 수 있다.
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR') as f:
  print(f.readline())
  print(f.readline())

데이터프레임 다루기: 판다스

  • CSV 파일을 데이터프레임으로 읽기: read_csv() 함수

  • 판다스는 각 열에 다른 종류의 데이터가 저장되어 있을 때, 경고함 -> low_memory 매개변수를 False로 지정하여 파일을 나누어 읽지 않고 한 번에 읽게 하여 해결

import pandas as pd
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR', low_memory=False)
  • 데이터프레임을 CSV 파일로 저장하기: to_csv() 메서드
df.to_csv('ns_202104.csv')
  • 저장한 CSV 파일을 open() 함수로 확인하기(for문 사용)
with open('ns_202104.csv') as f:
  for i in range(3):
    print(f.readline(), end='')

※ 여기서 잠깐! 파이썬에서 '함수'는 뭐고, '매개변수'는 뭘까?

-> 파이썬에서 함수(function)는 특정 작업을 수행하는 코드 블록을 의미합니다. 이 코드 블록은 이름을 가지며, 필요한 경우에 호출하여 실행할 수 있습니다. 함수는 프로그램을 모듈화하고 코드의 재사용을 촉진하는 데 사용됩니다.
매개변수(parameter)는 함수에 전달되는 입력 값입니다. 함수가 호출될 때, 이 매개변수에 실제 값이 전달되며, 함수 내에서 이 값을 활용하여 작업을 수행하거나 처리합니다.

def 더하기(a, b):
    결과 = a + b
    return 결과

결과값 = 더하기(3, 5)
print(결과값)  # 출력 결과: 8

위의 코드에서 더하기라는 함수는 a와 b라는 두 개의 매개변수를 받아서 이를 더한 후 결과를 반환합니다. 함수를 호출할 때 3과 5가 각각 a와 b에 전달되고, 함수는 이를 더한 결과인 8을 반환합니다. 결과값을 변수에 저장하고 나중에 출력할 수 있습니다.

  • 데이터프레임을 CSV 파일로 저장할 때 인덱스를 뺴고 저장하기
df.to_csv('ns_202104.csv', index=False)
  • 데이터프레임을 엑셀로 저장하기
ns_df.to_excel('ns_202104.xlsx', index=False)

-> 한글데이터 오류 자주 남
-> 해결법: xlsxwriter 패키기 사용하기

!pip install xlsxwriter
ns_df.to_excel('ns_202104.xlsx', index=False, engine='xlsxwriter')

1장 핵심포인트

  • CSV
    : CSV 파일은 콤마(,)로 구분된 텍스트 파일이다. 한 줄이 하나의 레코드이며, 레코드는 콤마로 구분된 여러 필드 혹은 열도 구성된다. 데이터가 엑셀처럼 표 형태를 가져야 하기 때문에 레코드에 있는 필드 개수는 모두 동일해야 한다.

  • 판다스
    : 표 형식 데이터를 위한 편리한 도구를 다양하게 제공하는 강력한 데이터 분석 패키지다. CSV나 엑셀 파일을 읽거나 쓸 수 있으며 데이터 분석을 위한 많은 기능을 제공한다.

  • 데이터프레임
    : 판다스의 핵심 데이터 구조로 행과 열로 구성된다. CSV 파일이나 엑셀 파일로부터 데이터프레임을 만들 수 있다.

  • 시리즈
    : 1차원 배열과 흡사한 판다스의 객체이다. 시리즈는 한 종류의 데이터만 포함할 수 있다.


2장 데이터 수집하기

2.1 API 사용하기

  • API란?
    : Application Programming Interface는 두 프로그램이 서로 대화하기 위한 방법을 정의한 것이다. 인증된 URL만 있으면 언제든지 필요한 데이터에 편리하게 접근할 수 있는 방식이다.
    : 프로그램 사이의 대화 방식을 결정한다.
    : 다양한 API 중 HTTP 프로토콜을 사용하는 웹 기반 API가 널리 사용된다.
    : 웹 기반 API는 주로 CSV, JSON, XML 형태로 데이터를 전달한다.

  • HTTP란?
    : Hyper Text Transfer Protocol은 인터넷에서 웹 페이지를 전송하는 기본 통신 방법이다.

  • 웹 페이지 문서: HTML
    : Hypertext Markup Language는 웹 브라우저가 화면에 표시할 수 있는 문서의 한 종류이나 웹 페이지를 위한 표준 언어다.
    : 마크업 언어라고 부르며

    와 같은 표시를 태그라고 부른다.

profile
데이터분석 공부로그

0개의 댓글