Today I Learnd (20210317)

kaya kim·2021년 3월 17일

TIL dict json scrapy selenium 웹크롤링 크롤링

Today Kaya Learned😎

목록 보기

1/2

< web crawling 종류>

Web crawling이란?

여러 웹 페이지의 특정 데이터를 수집하고 분류하는 작업
주로 데이터 수집 과정에서 사용됨

방법

크롤링의 방법은 굉장히 많다.
웹페이지에 따라 여러가지가 모두 가능하기도하고, 섞어서 사용해야 하는 경우도 있다.
따라서 크롤링을 시작할 때, 웹페이지를 분석하고 어떤 방법을 써야할지 판단하는 것이 가장 우선되어야 한다.
(가장 어려운 부분인 것 같다 ^ㅅ^)
크롤링을 배우면서 가장 많이 사용했던 방법을 크게 4가지로 분류해 보자면, 다음과 같다

Requests (json)

Requests (html)

Selenium

Scrapy

1. Requests(json)

When?

페이지를 이동해도 url이 변하지 않을 때 주로 사용한다.

How?

Server가 json(str) 형태로 데이터를 주면,
dict형태로 파싱해서 dataframe으로 만든다.

2. Requests(html)

When?

페이지를 이동하면 url이 변할 때 주로 사용한다.

How?

Server가 html(str) 형태로 데이터를 주면,
BeautifulSoup을 이용해서, html코드를 가지고 있는 BeautifulSoup 객체로 파싱한다.

3. Selenium

When?

주로 위의 1, 2번이 불가능할 때 사용한다.

How?

Server가 json(str) 형태로 데이터를 주면,
dict형태로 파싱해서 dataframe으로 만든다

4. Scrapy

When?

거의 대부분의 경우 사용 가능

How?

python 언어를 이용한 프레임워크로 매커니즘 이해가 필요하다
Scrapy 프로젝트를 생성하고, 구조를 채우고, 데이터를 수집하는 순서로 진행한다.

kaya kim

다음 포스트

Today I Learnd (20210317)

Today Kaya Learned😎

< web crawling 종류>

Web crawling이란?

방법

1. Requests(json)

When?

How?

2. Requests(html)

When?

How?

3. Selenium

When?

How?

4. Scrapy

When?

How?

Today I Learnd (20210318)

0개의 댓글