# WebCrawling

45개의 포스트
post-thumbnail

과거 대통령 연설문 비교(노무현 대통령 vs 이명박 대통령)

대학원 재직 중 수업 중간 과제 중 WebCrawling과 함께 Text Mining을 수행하는 과제결과를 게재하고자 한다. 해당 내용은 정치적 견해는 없으며, 단순 분석을 목적으로 하였음을 알려드립니다. > 노무현 대통령 vs 이명박 대통령의 연설 비교. Craw

2023년 7월 27일
·
0개의 댓글
·
post-thumbnail

Scrapy

옛날 코드라 작동하지 않음, 이해도 부족으로 인해 코드 수정이 불가하여 참고용으로만 사용웹사이트에서 데이터 수집을 하기위한 오픈소스 파이썬 프레임워크멀티스레딩으로 데이터 수집gmarket 상품데이터 수집프로젝트 구조 확인items : 데이터의 모양 정의middeware

2023년 5월 25일
·
0개의 댓글
·
post-thumbnail

XPath

html element를 선택하는 방법scrapy에서는 기본적으로 xpath를 사용//\*\[@id="nx_right_related_keywords"]/div/div\[2]/ul/li\[1]/a/div 이렇게 있을때// : 최상위 엘리먼트\* : 모든 하위 엘리먼트 :

2023년 5월 25일
·
0개의 댓글
·
post-thumbnail

Selenium으로 Text data 크롤링

이벤트 발생 기능(값 입력, 클릭 이벤트등)은 화면에 해당 엘리먼트가 보여야 합니다.한국어 선택브라우저를 화면에 띄우지 않고 메모리상에서만 올려서 크롤링하는 방법 window가 지원되지 않는 환경에서 사용이 가능chrome version 60.0.0.0 이상부터 지원합

2023년 5월 25일
·
0개의 댓글
·
post-thumbnail

Selenium으로 브라우저 컨트롤

Selenium자동화를 목적으로 만들어진 다양한 브라우져와 언어를 지원하는 라이브러리크롬 브라우져 설치크롬 브라우져 드라이버 다운로드 (크롬 브라우져와 같은 버전)다운로드한 드라이버 압축 해제chromedriver, chromedriver.exe 생성windows :

2023년 5월 25일
·
0개의 댓글
·
post-thumbnail

G마켓 베스트 상품 이미지 수집

폴더가 생성됐는지 확인한다.이미지 파일 열기test.png는 코드 확인용으로 넣어둔 이미지 파일이다. G마켓 이미지는 경로를 직접 보고 입력하거나 glob을 사용하면 된다.datas 폴더내의 파일들 확인이미지 파일 보기5개의 아이템 이미지 다운로드다운로드 됐는지 확인

2023년 5월 25일
·
0개의 댓글
·
post-thumbnail

네이버 연관 검색어 수집

정적(static) 웹페이지 데이터 수집 BeautifulSoup을 이용하여 HTML 문자열 데이터 parsingbs object에서 css-selector를 이용해 원하는 태그안의 내용을 가져온다.예시코드class값으로 검색elements의 요소중 맨앞만 뽑아서 확인

2023년 5월 24일
·
0개의 댓글
·
post-thumbnail

CSS_Selector

CSS 셀렉터는 CSS 스타일을 적용시킬 HTML 엘리먼트를 찾기 위한 방법 입니다.엘리먼트를 이용하여 선택할때 사용css selector로 div를 사용하면 가장 위에 있는 dss1이 선택아이디를 이용하여 선택할때 사용아이디를 셀렉할때는 - css selector로

2023년 5월 24일
·
0개의 댓글
·
post-thumbnail

Zigbang 원룸 매물 데이터 수집

절차동이름으로 위도 경도 구하기위도 경도로 geohash 알아내기geohash로 매물 아이디 가져오기매물 아이디로 매물 정보 가져오기파이썬에서는 한줄이 너무 길어질 때 \\ (백슬래시)로 끊을 수가 있다주의할 점은 백슬래시 뒤에 아무 문자도 없어야 한다는 것, 공백도

2023년 5월 21일
·
0개의 댓글
·
post-thumbnail

Naver Rest API 사용

파파고 번역 api통합검색어 트렌드 apiNAVERDevelopersRequest Token 얻기 : 애플리케이션등록 -> app_key 획득app_key를 이용해서 데이터 가져오기파파고 번역 문서사용법함수로 만들어준다서비스내 애플리케이션 > dss 애플리케이션 > A

2023년 5월 21일
·
0개의 댓글
·
post-thumbnail

Daum 주가정보 수집

라이브러리 임포트 1. 웹서비스 분석 : url python에서의 접근을 차단한다면 이렇게 접근 정보를 브라우저로 바꿔서 줄 수 있음 User-agent확인 2. JSON --> DataFrame 3. 데이터프레임 정리 및 확인

2023년 5월 21일
·
0개의 댓글
·
post-thumbnail

네이버 주가정보 수집

pc 웹페이지가 복잡하면 mobile 웹페이지에서 수집response의 status code가 200이 나오는지 확인403이나 500이 나오면 request가 잘못되거나 web server에서 수집이 안되도록 설정이 된것임header 설정 또는 selenium 사용20

2023년 5월 21일
·
0개의 댓글
·
post-thumbnail

Python 웹크롤링 개념

웹 페이지에서 데이터를 수집하는 방법에 대해서 학습정적인 페이지 : web browser에 화면이 한번 뜨면 이벤트에 의한 화면의 변경이 없는 페이지 동적인 페이지 : web browser에 화면이 뜨고 이벤트가 발생하면 서버에서 데이터를 가져와 화면을 변경하는 페이지

2023년 5월 21일
·
0개의 댓글
·
post-thumbnail

논문 주제 경향 살펴보기

data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABSoAAAMzCAYAAAChpSzXAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMywgaHR0cHM6Ly9tYXRwbG90bGliLm

2023년 3월 19일
·
0개의 댓글
·
post-thumbnail

[CAUnotify] 구조 설명

Link: https://caunotify.meCAUnotify.me 는 내가 처음으로 개발해본 웹 프로젝트이다.중앙대학교 서울캠퍼스 교내 48개의 게시판을 주기적으로(30분에 한번) 크롤링하여 과거 데이터와 대조해 변화가 있는지 알아내고, 변화가 있었다면 해

2023년 2월 13일
·
0개의 댓글
·

Python을 이용한 웹크롤링 - (3)

이미지 웹크롤링 후 크기 조정

2023년 1월 23일
·
0개의 댓글
·
post-thumbnail

python web crawling 1

web crawling using selenium

2022년 8월 25일
·
0개의 댓글
·

BeautifulSoup, Selenium (AI 빅데이터 교육_3주차)

파싱(Parsing)가공되지 않은 데이터(ex. html, xml, json, etc..)에서 원하는 정보를 추출하는 작업파싱 모듈 : BeautifulSoup, Selenium ...

2022년 8월 10일
·
0개의 댓글
·

Python을 이용한 웹크롤링 - (2)

기본 환경 설정이 끝난 후에 가장 간단한 방법으로 네이버 웹툰 웹크롤링을 진행

2022년 7월 20일
·
0개의 댓글
·
post-thumbnail

모바일 알람 - Slack 활용

모바일로 블랙보드 스트림 내용 알림주기 - Slack 활용

2022년 5월 31일
·
0개의 댓글
·