크롤링

매일 공부(ML)·2021년 11월 19일
0

CS 

목록 보기
31/33

CODE: 링크텍스트

크롤링

웹 크롤러 만들기

  • 정의: 웹에서 데이터를 긁어 오는 작업

  • 구조: 멀티스레드(웹,HTTP통신) + 큐 형태의 자료구조 이용-> URL이용해서 전달

  • 파이썬 크롤링 라이브러리(urllib사용하기)

    	- 웹페이지에서 다운로드
- 웹페이지에서 분석하기
  • 더 좋은 라이브러리(BeautifulSoup, Requests사용)

로그인하기

  1. 로그인 원리, 쿠키와 세션

  • 쿠키: HTTP 헤더 기반으로 이루어지는 데이터, Key-Value쌍의 작은 데이터 파일, 방문자 고유 ID같은 정보만 저장한다. 로컬에 저장,탈취와 변조가 가능, 브라우저를 종료해도 파일로 남음, 파일에서 읽기 때문에 상대적으로 빠르다

  • 세션: 쿠키를 이용해서 데이터 저장, 로컬과 서버에 저장, ID값만 가지고 서버에도 저장이 되어서 상대적으로 안전, 브라우저 종료 시 세션 삭제, 요청마다 서버에서 처리하고 느림

브라우저 제어를 통한 크롤링

profile
성장을 도울 아카이빙 블로그

0개의 댓글