웹 스크랩 핑 : 코로나 바이러스 (COVID-19) 데이터를 얻는 방법

향유·2020년 7월 16일
0

새로운 공중 전염성 코로나 바이러스 가 출현 한 이래로 수백만의 삶이 영향을 받아 관련 뉴스가 모든 플랫폼에서 폭발하고 있습니다.

이러한 상황에서 우리는 공식적인 데이터 와 비공식적 인 소스 모두로부터 실시간 데이터 를 수집 하여 대중이 투명한 데이터 소스를 통해이 발생에 대해 공정하게 이해할 수 있도록해야한다고 생각했습니다.

이러한 소스에서 데이터를 가져 오기 위해, 중국 정부 보고서에서 데이터를 추출하기 위해 웹 스크랩 핑 템플릿 을 구축 했으므로 Octoparse와 같은 웹 스크랩 툴을 활용할 수 있습니다 . 이를 통해 최신 정보로 업데이트 할 수 있습니다. 이제 템플릿을 사용하여 실시간 데이터를 추출하는 방법을 살펴 보겠습니다.

1 단계 : 컴퓨터에서 Octoparse를 시작하고“ 작업 템플릿 ” 을 클릭하여 스크래핑 작업을 작성하십시오 .

알림 : 전자 상거래 웹 사이트에서 소셜 미디어 채널에 이르기까지 다양한 "레시피"가 있습니다. 이들은 대상 웹 사이트에서 직접 데이터를 추출하는 데 사용할 수있는 사전 형식화 된 크롤러입니다. 웹 스크랩 핑 템플릿이 무엇인지 더 잘 알기 위해이 기사를 확인하십시오 .

2 단계 : '실시간'카테고리에서 '국가 건강 관리위원회'를 선택하십시오.

두 개의 템플릿이 나타납니다. 하나는 정부 뉴스 및 발표 를 추출하는 것 입니다. 다른 하나는 Tencent 뉴스 웹 사이트로 , 중국의 중앙 및 지역 보건위원회와 직접 연결되어 있습니다. 이것은 지금까지 중국 각 도시에서 확인 된 사례, 회복, 사망자 수 및 사망률을 포함한 실시간 데이터를 얻는 가장 빠른 방법 입니다.

3 단계 : 실시간 데이터를 수집하려면 "실시간 데이터 2019-nCov"를 클릭하십시오.

구성 할 필요가 없습니다. 추출을 시작하면 Octoparse가 자동으로 데이터를 쉽게 긁어냅니다. API를 통해 데이터를 Excel, JSON, CSV 및 자체 데이터베이스와 같은 다양한 형식으로 내보낼 수 있습니다. Excel의 데이터 출력은 다음과 같습니다.

소셜 미디어 채널에서 실시간 정보를 추출 할 수도 있습니다. Facebook, Twitter, Instagram 및 YouTube와 같은 인기있는 플랫폼을 다루는 템플릿이 있습니다.

예를 들어, 바이러스에 대한 최신 트윗을 추출하고 사람들이 바이러스에 어떻게 반응하는지 확인하려면 "최신 트윗"템플릿을 활용할 수 있습니다. 검색 키워드를 포함하는 최신 트윗을 수집하도록 설계되었습니다. 웹 페이지 URL, 트윗 URL, 처리기, 게시물 등을 추출 할 수 있습니다.

이제이 템플릿을 실행 해 봅시다.

1 단계 : Twitter를 열고 "coronavirus"를 입력하고 "latest"탭을 클릭하십시오. URL을 복사하여 첫 번째 매개 변수에 붙여 넣습니다 .

2 단계 : 두 번째 매개 변수에 숫자를 입력하십시오.

트위터는 무한 스크롤 기술을 적용합니다. 즉, 원하는 게시물 수를 얻을 때까지 스크롤 번호를 설정해야합니다. 1에서 10,000까지 원하는 숫자를 설정할 수 있습니다. 아이디어는 페이지를 완전히로드하는 것입니다. 예를 들어 숫자 10을 입력하면 봇이 10 번 스크롤됩니다.

3 단계 :“저장 및 실행”을 클릭하여 스크레이퍼를 실행하면 결과가 즉시 나타납니다.

이 비디오에서 웹 스크래핑 템플릿을 사용하여 코로나 바이러스에 대한 실시간 데이터를 수집하는 방법을 설명했습니다. Wall Street Journal, New York Times 및 Reuters와 같은 뉴스 포털에서 기사를 추출하기 위해 자체 스크레이퍼를 빌드하려는 경우이 비디오를 확인하십시오.

이 블로그 게시물은 데이터 분석이 코로나 바이러스의 진실을 밝히는 데 어떻게 도움이되는지 기사에서 시작되었습니다 .

profile
나는 웹 크롤링 산업에서 일하는 데이터 엔지니어이고 내 블로그 사이트는 다음과 같습니다:https://www.octoparse.es/blog

0개의 댓글