[노마드코더] Python으로 웹 스크래퍼 만들기 - Day 4

joyful·2021년 12월 9일
0

python

목록 보기
4/6
post-custom-banner

1.12 Modules

📝 module

  • 일종의 기능의 집합
  • 프로그램에 import 해서 사용
    • 내장 module은 따로 설치할 필요없이 import만 하면 module에서 제공하는 함수 사용 가능
# 사용법
import 모듈명

# 예시
import math

print(math.ceil(1.2))
print(math.fabs(-1.2))
2
1.2
  • 다른 파일에서 정의된 기능을 import하여 사용 가능
    • import 시 파일명만 명시해주면 됨

💻 calculator.py

def plus(a, b):
    return a + b

def minus(a, b):
    return a - b

💻 main.py

from calculator import plus, minus

print(plus(1, 2), minus(1, 2))

💻 결과

3 -1

📝 참고 사항

  • module에 존재하는 기능 중 사용할 기능만 import 할 것
    → 전부 import 하는 것은 비효율적임
# 사용법
from 모듈명 import 함수1, 함수2, ...

# 예시
from math import ceil, fsum

print(ceil(1.2))
print(fsum(1, 2, 3, 4, 5, 6, 7))
2
28.0
  • import module명 변경 가능
# 사용법
import 모듈명 as 원하는 이름
from 모듈명 import 함수 as 원하는 이름

# 예시
from math import fsum as happy_sum

print(happy_sum(1, 2, 3, 4, 5, 6, 7))
# 결과
28.0



2. BUILDING A JOB SCRAPPER

2.0 What is Web Scrapping

📝 web scraping

  • 웹 상의 데이터를 추출하는 것
    ex) 기사 가져오기, 리뷰 비교, 제품 색인, 영화 리뷰 등
  • web indexing, data mining으로 불리기도 함


2.1 What are We Building

파이썬 관련 일자리 찾기

  • scrapper를 만들어 구인구직 사이트(Indeed, stackoverflow)내의 모든 페이지에 등록되어 있는 일자리 가져오기 + 페이지 링크 다 들어가기 반복하여 정보 가져오기
  • 가져온 데이터를 엑셀 시트에 옮기기


2.2 Navigating with Python

📝 구현 방법

  • repl.it 이용
  • url로 사이트 접근
  • 페이지 갯수 파악
    • 페이지 하나씩 접근
    • indeed
      • 고급 검색 > 한 페이지 당 검색결과 설정
  • 주소창에 출력되는 url 사용
  • 모든 결과 엑셀 시트에 출력

📝 requests

  • 파이썬에서 요청을 만드는 기능을 모아 놓은 module
  • repl.it에서 import 하기
    • packages > requests 검색 > Python HTTP for Humans 선택 > Install Package 클릭

📝 beautifulsoup4

  • HTML/XML Parser
profile
기쁘게 코딩하고 싶은 백엔드 개발자
post-custom-banner

0개의 댓글