웹 크롤러 학습 책 추천-Web Scrapping with Python, Ryan Mitchell

이도현·2023년 10월 31일
0

0. 개요

필자가 웹 스크레이핑에 대해 이야기할 때마다 항상 이렇게 묻습니다.
"구글 같은 기업은 어떻게 만들어지나요?"
필자의 대답은 항상 같습니다.
"첫째, 수십억 달러를 모아 세계에서 가장 훌륭한 데이터센터를 만들고 세계 곳곳에 배치합니다."
"둘째, 웹 크롤러를 만듭니다."

  • 표지에 동물은 사바나천산갑이며 멸종 위기종이라고 한다.
  • 책 표지 설명에 animals.oreilly.com 을 참고하여 도와달라고 하신다.
  • 동물 좋아하시나보다.

1. 추천하는 이유

  • 실용적인 접근 방식: 실제 사례 연구와 예제를 통해 기술을소개
  • 다양한 도구와 라이브러리 소개: Selenum같은 웹 자동화 도구에 대해서도 설명
  • 웹 크롤러의 합법성과 윤리에 대해 다룬다.

    라이브러리들의 빠른 업데이트로 인해 가끔 예제를 작성하면 import가 안된다는 등의 문제가 있습니다. 진짜 가끔이기도 하고 조금만 검색하면 금방 업데이트된 내용을 찾을 수 있으니 학습에는 지장이 없을 듯 합니다.

2. 어떤 사람에게 추천?

  • 파이썬 가상환경을 설치할줄 알고 기본적인 문법을 알고 있는사람(+추가적으로 알고리즘에 대해 알면 스피디하게 배울 수 있을 것이다. 몰라도 괜찮다. 하면서 배우면된다.)
  • 웹 스크레이핑 작업에 관해 상세한 가이드를 원하는 사람

    웹 크롤링: 인터넷 상의 웹페이지를 시스템적으로 탐색하는 과정
    웹 스크레이핑: 특정 웹페이지로부터 데이터를 추출하는 과정

3. 책의 목차

part1 스크레이퍼 제작

  1. 첫 번째 웹 스크레이퍼
  2. 고급 HTML 분석
  3. 크롤링 시작하기
  4. 웹 크롤링 모델
  5. 스크레이피
  6. 데이터 저장

part2 고급 스크레이핑

  1. 문서 읽기
  2. 지저분한데이터 정리하기
  3. 자연어 읽고 쓰기
  4. 폼과 로그인 뚫기
  5. 자바스크립트 스크레이핑
  6. API를 통한 크롤링
  7. 이미지 처리와 텍스트 인식
  8. 스크레이핑 함정 피하기
  9. 스크레이퍼로 웹사이트 테스트하기
  10. 병렬 웹 크롤링
  11. 원격스크레이핑
  12. 웹 스크레이핑의 합법성과 윤리
profile
좋은 지식 나누어요

0개의 댓글