[JAVA] 웹 크롤링

!·2022년 7월 20일
0

JAVA

목록 보기
1/1

웹 크롤링

네이버 해외축구 기사의 헤드라인을 출력하는 웹 크롤링 연습.
필요한 것 : Jsoup 라이브러리

코드

import java.util.*;
import java.net.URL;
import java.io.IOException;
import org.jsoup.*;
import org.jsoup.select.*;
import org.jsoup.nodes.*;

public class main
{
   public static void main(String[] args) throws IOException
   {
       String URL = "https://sports.news.naver.com/wfootball/index";
       Document doc = Jsoup.connect(URL).get();
       Elements elem = doc.select("ul.home_news_list a span");
       Elements elem2 = doc.select("ul.home_news_list division a span");
       for(int i = 0;i<elem.size();i++)
       {
           Element pn = elem.get(i);
           System.out.println(pn.text());
       }
       for(int i = 0;i<elem2.size();i++)
       {
           Element pn = elem.get(i);
           System.out.println(pn.text());
       }
   }
}
  • URL의 주소를 저장한 뒤, Document 타입의 변수에 connect() 함수를 이용해 html 텍스트를 모두 넣는다.
  • Elements 타입의 변수에 select() 메소드를 이용해 태그 명, 및 클래스 명으로 원하는 html 태그를 선택한다.
  • 반복문에 Element 타입의 변수에 Elemets 변수에 마치 배열을 접근하듯이, 하나씩 출력할 수 있다.

출력결과

profile
개발자 지망생

0개의 댓글