[2024 개정판] 이것이 진짜 크롤링이다 - 기본편

cse 23·2024년 7월 16일
0

웹크롤링
: 웹 사이트에 있는 정보를 자동으로 빠르게 수집하는것
(WWW(거미줄)+크롤링(기어다니다))

활용
1.데이터분석과정-데이터로 유의미한 방식
2.웹 사이트 자동화
3.인공지능 학습 데이터

-상품,컨텐츠 자동업로드
-부동산 주식 재테크 데이터 수집

웹페이지를 어덯게 볼수있을까>
HTTP통신: 웹 브라우저와 웹 서버 사이에 데이터를 주고 받는데 사용되는 통신

요청:www
응답: HTTP

준비물 : HTML기초/ CSS선택자

웹 사이트 개발의 3요소

HTML : 구조
CSS: 디자인
JavaScript : 동작

HTML

웹 사이트의 구조를 표시하기 위한 언어
태그 구조
<태그이름 속성="속성값">내용</태그이름>
시작태그 종료태그
-속성은 여러개 부여할수도 없어도 됌

CSS

h1{color:Red}
선택자 속성자 속성명
선택자: 웹페이지에서 원하는 태그를 선택하는 문법
1.태그선택자-태그이름으로 선택하는것
(중요)2.클래스 선택자-클래스 속성값으로 선택하는것
클래스: 태그에 별명을 주는 것
3.아이디 선택자 - 아이디 속성값으로 선택하는것아이디: 태그에 별명을 주는 것

웹 크롤링 기초

정적 페이지 크롤링 : 데이터의 추가적인 변경이 일어나지 않는 페이지(응답받은 HTML에 원하는 정보가 다있음)

데이터 받아오기
파이썬 서버에서 요청을 하고 응답받기

데이터 뽑아내기
-HMTL에서 원하는 부분만 추출
css 선택자를 잘 만드는것이 핵심

0개의 댓글