웹크롤링
: 웹 사이트에 있는 정보를 자동으로 빠르게 수집하는것
(WWW(거미줄)+크롤링(기어다니다))
활용
1.데이터분석과정-데이터로 유의미한 방식
2.웹 사이트 자동화
3.인공지능 학습 데이터
-상품,컨텐츠 자동업로드
-부동산 주식 재테크 데이터 수집
웹페이지를 어덯게 볼수있을까>
HTTP통신: 웹 브라우저와 웹 서버 사이에 데이터를 주고 받는데 사용되는 통신
요청:www
응답: HTTP
준비물 : HTML기초/ CSS선택자
HTML : 구조
CSS: 디자인
JavaScript : 동작
웹 사이트의 구조를 표시하기 위한 언어
태그 구조
<태그이름 속성="속성값">내용</태그이름>
시작태그 종료태그
-속성은 여러개 부여할수도 없어도 됌
h1{color:Red}
선택자 속성자 속성명
선택자: 웹페이지에서 원하는 태그를 선택하는 문법
1.태그선택자-태그이름으로 선택하는것
(중요)2.클래스 선택자-클래스 속성값으로 선택하는것
클래스: 태그에 별명을 주는 것
3.아이디 선택자 - 아이디 속성값으로 선택하는것아이디: 태그에 별명을 주는 것
정적 페이지 크롤링 : 데이터의 추가적인 변경이 일어나지 않는 페이지(응답받은 HTML에 원하는 정보가 다있음)
데이터 받아오기
파이썬 서버에서 요청을 하고 응답받기
데이터 뽑아내기
-HMTL에서 원하는 부분만 추출
css 선택자를 잘 만드는것이 핵심