[TIL] pagination, crawling

하나·2022년 1월 16일
0

TIL

목록 보기
1/14
post-thumbnail
  1. 기업 파트의 링크 크롤링 (url)
  • bs4 사용

    1-1. pagination 사용 방법

    1-1-1. 전체가 몇 페이지인지 보이는 경우

    • pagination 값을 +1 해가며 크롤링

      1-1-2. 전체가 몇 페이지 있는지 보이지 않는 경우

    • 1) pagination 값을 먼저 구하는 코드를 짠다. +1 해가며 값이 있는지 없는지 판단해서 총 페이지 수 구하기

    • 2) (총 기사 수)/(한 페이지에 보여지는 기사 수) 의 몫, 총 기사의 개수가 595개라 하면 595건//20개 = 29, 29페이지까지 20개씩, 맨 마지막 페이지 15개

  1. 링크로 접근해서 기사 크롤링
  • 셀레니움 사용
  1. 전처리 코드
  • 인코딩 문제 해결 중
  1. output : Bigkinds 와 동일하게 맞추기

0개의 댓글