[Data] Crawling

Ik·2023년 5월 31일

Data

목록 보기

31/34

퇴근하고 갑자기 크롤링이 생각났다

주변에서 다들 쉽다고만 하는데 한번도 해보지 않은 입장에서 궁금했다

해당 링크에서 크롤링 맛만 살짝 봤다

아나콘다 가상 환경 세팅하는 시간이 더 오래 걸렸다

크롤링은 HTML로 이루어져 있는 사이트의 HTML 코드를 가져와 필요한 정보들만 빼내는게 핵심이다

이 때 HTML을 가져오는 과정, 가져온 HTML에서 우리가 원하는 정보를 파싱하는 과정 2가지가 전부이다

해당 과정에서 가장 중요한 것은 복잡도가 높은 HTML 코드에서 우리가 원하고자 하는 데이터가 어떤 태그들과 어떤 형태로 있는지를 파악해야 된다는 점이다

만약 태그와 형태가 파악이 되었다면 그에 맞춰 lib 함수들을 사용해 우리가 사용하고자 하는 데이터를 얻으면 Crawling의 목적을 달성하는 것이다