210324_파이썬을 이용한 웹 크롤링_02

정재현·2021년 3월 24일
0

TIL2

목록 보기
24/79

오늘도 어제에 이어서 크롤링을 진행했다.
다만 구현 방식이 좀 바뀌었는데,
원래는 5개의 언론사를 선별해서 그 언론사를 클릭하면 '코로나 백신'에 관련된 기사를 노출시키려 했으나..
5개의 언론사 페이지마다 다 프론트엔드 구현방식이 다르니 개별 구현을 해줘야하는 방식때문에 그냥 네이버에 '코로나 백신'을 검색하고,
내가 원하는 언론사의 기사가 노출되었으면 가져오는 방식을 택했다.

우리 팀의 디자인 담당하신 분이 초안을 만드셨는데,

아마 저기 오른쪽에 언론사를 선택하면 노출되게 해야 하겠지.

그래서 오늘은 네이버 검색창에 코로나 백신을 검색했을 때
현재 시간과 기사의 제목과 언론사를 가져오는 작업을 했다.

시간을 가져오기 위해 datetime 모듈을 사용했고,
webelement를 볼 때 css의 속성을 좀 살펴봤다.

네이버 기사 컨테이너 리스트는 ul태그의 list_news 클래스로 구현되어있고, 그 안의 개별 뉴스들은 li 태그로 되어있어서
ul.list_new > li 로 나타낼 수 있다.
(> 는 자식이다.)

현재 시간을 출력해주고
for문을 돌려 articles에 네이버기사 컨테이너 박스를 받아온다음 (리스트로 다 받아옴) 첫번째부터 마지막까지의 기사 타이틀과 해당 언론사를 받아왔다. 그리고 깔끔하게 기사 제목과 언론사를 나눠주었다.
출력결과를 보면~

이렇게 잘 받아온것을 볼 수 있다!
근데 이 형식으로만 사이트에 제공할 수 없기에,
실제 네이버 기사에 나온것처럼 보여주고싶은데..
그 방법은 더 알아봐야겠다.

오늘의 코멘트: 파이썬 좋다~~~

profile
"돈받고 일하면 프로다"

0개의 댓글