Jupyter Lab Jupyter Lab은 무었일까요? interactive 한 Python 코드 작성 / 공유를 위한 개발 도구 Jupyter Lab 시작하기 > 1. Jupyter Lab 설치하기 - 터미널 환경에서 pip 이용! Jupyter Lab 명령을
태초에 컴퓨터가 있었다!이 두 컴퓨터를 연결하는 네트워크(Network)의 탄생이 네트워크를 묶는 근거리 지역 네트워크(Local Area Network, LAN)의 탄생범 지구적으로 연결된 네트워크 Inter Network - 인터넷(Internet)의 탄생이 인터넷
웹 속에 있는 문서 하나는 웹 페이지이러한 웹 페이지의 모음은 웹 사이트웹 페이지는 다음과 같이 매우 복잡한 줄글로 되어있다.웹 브라우저는 HTML 요청을 보내고 HTTP응답에 담긴 HTML 문서를 우리가 보기 쉬운 형태로 화면을 그려주는 역할을 담당웹 페이지는 HTM
requests 는 Python을 이용해서 간단히 HTTP 통신을 진행할 수 잇는 라이브러리 입니다. 이를 사용하기 위해서는 먼저 requests 라이브러리를 설치해야 합니다.
자주 혼용되는 두 단어, 차이는 무었일까?웹 페이지들로부터 우리가 원하는 정보를 추출크롤러(Crowler)를 이용하여 웹 페이지의 정보를 인덱싱웹 스크레핑 : 특정한 목적으로 특정 웹 페이지에서 데이터를 추출하는 것 - 데이터 추출e.g : 날씨 데이터 가져오기, 주식
브라우저는 어떻게 이 문서를 오른쪽과 같은 예쁜 페이지로 만들 수 있을까?브라우저의 렌더링 엔진은 웹 문서를 로드한 후, 파싱을 진행이를 DOM (Document Object Model) 이라고 한다.브라우저는 DOM을 왜 만들어 내는 걸까?DOM은 실제로는 이렇게 복
HTML 코드를 분석해주는 HTML Paser 중 하나pip를 이용하여 설치한다.설치한 BeautifulSoup를 import 한다.BeautifulSoup 변수를 선언한다.prettify 함수를 이용하여 body를 출력한다.soup 객체를 통해 HTML의 특정 요소를
스크래핑에 필요한 라이브러리 호출하기예시 사이트에 요청일 진행, 응답을 바탕으로 BeautifulSoup 객체 생성하기태그에 해당하는 요소 모두 찾아보기booklist 에서 원하는 제목(title) 만 추출하기
태그는 자신의 이름 뿐만 아니라 고유한 속성 또한 가질 수 있습니다.이 중에서 id와 class는 Locator로서, 특정 태그를 지칭하는 데에 사용됩니다.tagname: 태그의 이름id: 하나의 고유 태그를 가리키는 라벨class: 여러 태그를 묶는 라벨스크래핑에 필
User-Agent를 설정한다User-Agent를 포함하여 요청을 진행한다.응답을 바탕으로 BeautifulSoup 객체를 생성한다.질문의 제목을 모아서 출력합니다.페이지네이션은 많은 정보를 인덱스로 구분하는 기법입니다.해당 사이트는 Query String을 통해서 이
웹 페이지는 어떻게 생성되느냐에 따라 크게 2가지로 구분HTML 내용이 고정된 정적(static) 웹 사이트HTML 내용이 변하는 동적(dynamic) 웹사이트정적 웹 사이트는 HTML 문서가 완전하게 응답된다.동적 웹 사이트는 응답 후 HTML이 렌더링이 될 때가지의
Selenium 설치 & 사용하기
Wait 을 이용하면 동적 웹 사이트를 성공적으로 스크래핑 할 수 있다.
웹 페이지에서 일어나는 모든 일들을 Event 라고 합니다.마우스로 발생할 수 있는 대표적인 이벤트는 다음과 같습니다.마우스 움직이기(move)마우스 누르기(press down)마우스 떼기(press up)버튼을 찾은 후 이를 클릭하는 것을 목표로 할때,마우스 입력은
웹 페이지에서 일어나는 모든 일들을 Event 라고 합니다.키보드로 발생할 수 있는 대표적인 이벤트는 다음과 같습니다.키보드 누르기(press down)키보드 떼기(press up)입력창(input 태그의 form)에 키보드 입력을 진행하는 것을 목표로 할때, 키보드
데이터 추출, 그리고 끝? @@시각화로 결과 떠먹여주기
먼저 스크래핑에 필요한 라이브러리를 불러옵니다.driver를 이용해 기상청 날씨 데이터를 가져옵니다. 이때 동적페이지의 경우 시간을 지연시켜 대기합니다.데이터의 타입 또한 시각화에 적합한 int형으로 변환합니다. 받아온 데이터를 통해 꺾은선 그래프(Line plot)를
이전에 실습을 진행한 해시코드 https://hashcode.co.kr 사이트에선 다양한 질문이 올라왔는데, 질문제목 아래에 태그가 있었습니다. 이를 스크래핑 해 각 주제 별로 질문수를 파악하고 시각화 해봅시다.먼저 User_Agent를 추가합니다.ul 태그를
Wordcloud 자주 등장하는 텍스트를 중요도나 인기도를 고려해 표현한 것 Word Cloud를 만들기 위한 과정 자연어 문장에서 키워드를 추출 키워드가 등장한 빈도를 측정 전처리한 정보와 wordcloud 라이브러리를 바탕으로 Wordcolud 생성 Wordc
bs4와 wordcloud를 이용해서 질문 키워드를 보여주는 시각화를 진행합니다.User-Agent를 추가 합니다.Pagination이 되어있는 질문 리스트의 제목을 모두 가져와 리스트 questions에 저장 합니다.WordCloud를 그리기 위해 필요한 라이브러리를