4-3. 스크래핑 결과 시각화하기 II

data_hamster·2023년 4월 21일

학습 주제
시각화로 결과 요약하기

학습내용
질문 주제 빈도를 보여주는 시각화를 진행해본다.

스크래핑

1. 먼저 ul 태크에 class="question-tags"를 갖고 모두 찾을 예정.
2. 1번 안에 있는 li 태그의 text를 추출

find() 대신 find_all()을 사용한 이유는. ul 안에 li가 없을 경우, (즉 태그를 달지 않았을 경우) 오류가 나기때문에 find_all()을 하여 비어있으면 넘어가는 식으로 진행한다.

빈칸을 제거하기 위해 .strip()을 적용

현재까지는 한 페이지에 대한 스크래핑이었다. 대부분의 웹사이트는 페이지네이션을 지원하고 있고, 페이지 주소 위에 숫자인 쿼리형식으로 주소를 알려주고 있기 때문에, 이를 이용한다.
그리고 횟수를 저장하는 변수 frequency를 dict형으로 생성해준다. 이전 알고리즘 수업때 배웠던 .get()을 이용한 초기화를 사용하거나, for문을 사용한다.

.get()의 두번째 인자는 만일 1번째 인자로 넣은 키값이 존재하지 않을 경우 0을 반환한다는 뜻이다. 있을 경우는 그 키값에 해당하는 값을 리턴한다.