오늘은 웹 스크래핑을 배웠다.
보통 정보 수집하고 싶은 사이트를 방문해서 F12 로 경로를 찾고 파이썬으로 수집하는 것이다
인위적으로 하나의 아이피에서 많은 접속이 일어나면 차단 당할 수 있다.
여기서 중요한 3가지가 있다.
크롤링
크롤링은 웹 인덱싱을 위해 WWW를 체계적으로 탐색해나가는 것을 의미합니다. 크롤러가 하는 행위(WWW를 탐색해나가는 행위 등)를 바로 ‘크롤링’ 이라고 합니다.
파싱
웹 파싱은 웹 상의 자연어, 컴퓨터 언어 등의 일련의 문자열들을 분석하는 프로세스입니다.
스크래핑
웹 스크래핑은 다양한 웹사이트로부터 데이터를 추출하는 기술을 의미합니다.
정의를 살펴보면, 흔히 사용되는 용어 ‘크롤러’는 데이터 추출의 의미보다 웹 사이트를 탐색하고, 인덱싱 하는 것에 더 중점적인 의미를 갖고 있는 것 처럼 보입니다. 따라서 이번 글 에서는 ‘웹 크롤링’ 이라는 단어의 사용보다 ‘웹 파싱’ 이라는 단어를 사용하겠습니다. (각각의 용어에 대한 해석은 다를 수 있습니다.