Colab에서 본격적인 스크래핑에 앞서 아주 간단한 POST, GET 요청 실습을 했다.
%pip install requests
### GET ###
import requests
res = requests.get("https://www.naver.com") # '200' means OK
res # HTTP response
res.headers
res.text # BODY를 text형태로 확인
### POST ###
payload = {"name": "J", "school": "University"}
requests.post("https://webhook.site/{본인 아이디}", payload)
웹 스크랩핑 원칙
1. 요청하고자 하는 서버에 과도한 부하 주지 않기
2. 가져온 정보 사용 시에 저작권 & 데이터베이스권에 위배되지 않는지 주의
naver의 robots.txt를 확인하는 실습을 진행했다!
import requests
res = requests.get("https://www.naver.com/robots.txt")
res.text
결과는 아래처럼 나왔다.
User-agent: *
Disallow: /
Allow : /$
각각의 의미는 다음과 같다.