퇴근하고 갑자기 크롤링이 생각났다
주변에서 다들 쉽다고만 하는데 한번도 해보지 않은 입장에서 궁금했다
해당 링크에서 크롤링 맛만 살짝 봤다
아나콘다 가상 환경 세팅하는 시간이 더 오래 걸렸다
https://github.com/sung-ik-je/practice/tree/main/crawling
크롤링은 HTML
로 이루어져 있는 사이트의 HTML
코드를 가져와 필요한 정보들만 빼내는게 핵심이다
이 때 HTML
을 가져오는 과정, 가져온 HTML
에서 우리가 원하는 정보를 파싱하는 과정 2가지가 전부이다
해당 과정에서 가장 중요한 것은 복잡도가 높은 HTML
코드에서 우리가 원하고자 하는 데이터가 어떤 태그들과 어떤 형태로 있는지를 파악해야 된다는 점이다
만약 태그와 형태가 파악이 되었다면 그에 맞춰 lib 함수들을 사용해 우리가 사용하고자 하는 데이터를 얻으면 Crawling의 목적을 달성하는 것이다