백엔드 도전기 7일차

홍성준·2022년 11월 8일
0

오늘 배운 내용

오늘도 역시 오전에 알고리즘 수업을 듣고, 개인 공부를 하는 시간을 가졌다. 역시 알고리즘을 효율적으로 풀려면 상황에 맞는 여러 함수들과 메서드들을 숙지하고 있어서 간결하고, 이해하기 쉬운 코드가 완성이 된다.
오후에는 도커의 이론을 배우고 실제로 가상컴퓨터를 만들어 보았다. 전에 해봤던 vmware와는 달리 간단하게 실행이 가능했고, 따로 설치과정 또한 단순해서 쉽게 쉽게 이해하고 넘어갔다. 도커에 전에 만들었던 API들을 복사해서 넣어주고 포스트맨으로 실행을 해봤는데, 데이터를 받을 수가 없었다. 왜 그런지 수업을 들어보니 포트포워딩이라는 것을 도커 실행할 때 설정을 해줘야 정상적인 요청과 응답이 가능했다. 그래서 2000:3000으로 포트포워딩을 설정해주고 요청을 보내보니 정상적으로 응답을 받을 수가 있었다.

scraping & crawling

스크래핑은 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미한다. 동작방식은 정보를 추출하기 위해 스크래퍼 봇이라는 것이 있는데, 이 봇이 특정 웹 사이트에 컨텐츠를 다운로드 하기위한 get 요청을 보냅니다. 사이트가 이에 응답을 하면 받아온 문서를 분석하여 특정 패턴을 지닌 데이터를 뽑아낸다. 그리고 이 뽑아낸 데이터를 DB에 저장해서 원하는대로 사용을 하게된다. 이것을 이용해 금융과 주식시장에선 뉴스 정보를 모으고, 투자 자문을 위한 기업 재무제표 정보를 자동으로 수집하기도 한다.

크롤링은 웹상의 정보들을 탐색하고 수집하는 작업을 의미한다. 인터넷은 정보의 바다라고 할 만큼 많은 양의 정보가 있는데, 이 정보를 사람이 일일히 파악하는 것은 불가능에 가깝다. 이와 같은 이유때문에 웹 크롤러라는 컴퓨터 프로그램을 만들게 되었다. 이 크롤러는 인터넷을 돌아다니며 여러 웹 사이트에 접속을 한다. 그리고 페이지의 내용과 링크의 복사본을 생성하여 다운로드하고 요약본을 만든다. 예를들면 우리가 구글에 어떤 정보를 검색했을 때 네이버, 다음등의 사이트에 있는 정보 또한 가져와서 보여준다. 이러한 정보들이 웹 크롤러가 수집한 데이터이다.

profile
안녕하세요

0개의 댓글