크롤링 타겟 URL이 순서 또는 특정 규칙에 따라 페이지별로 바뀌는 부분을 이용해 반복문을 통해 다수의 페이지를 긁어오는 방식. 패턴 URL 크롤링은 가장 많이 쓰이는 크롤링으로 여러 페이지를 한번에 긁어오는데 상당히 유용한 방법이다.
크롤링 연습에 가장 좋은 것이 바로 주식 데이터 불러오기다.동학개미로서 참을 수 없었기 때문에 KOSPI 전종목을 불러오는 코드를 통해 실습을 진행해보았다.코드를 하기 전 준비물은 전종목 kospi 종목코드다.
웹 크롤링의 뼈대는 앞선 포스팅을 통해 알아보았으니, 이번엔 웹 데이터를 어떻게 가져오고 선별은 어떻게 하는지를 알아보도록 하겠다.우선, 웹 페이지가 무엇인지 대략적으로 알아야 웹페이지에 있는 특정데이터를 가져올 수 있을 것이다.그렇다면, 웹페이지는 무엇일까?
웹 크롤링은 데이터 사이언스를 하는데 있어서 알아두면 굉장히 좋은 스킬이다. 아마 코딩을 배우는 분들이면 많이 들어봤을 것이다. 그렇다면, 웹 크롤링은 대체 무엇일까? 어원을 보면 '웹을 긁어오는 것' 이라는 뜻이다.
웹크롤링을 하기 위해서는 크롬드라이버를 설치해야 한다.chromedirver는 아래 링크에 들어가서 다운로드 받을 수 있다.다운로드 링크 https://chromedriver.chromium.org/downloads그리고ipython을 실행한 후를 실행하면 크
💡 Class : OOP에서 구현하려는 개념을 추상화한 코드 템플릿. Class란 구현하려는 개념을 객체(object)의 형태로 표현한 것이다.
💡 OOP : Object-Oriented Programming의 약자로 객체(Object)를 기반으로 프로그램을 만드는 방법론.
💡 I/O : Input/Output의 약자로 컴퓨터가 데이터를 입력받고 출력하는 모든 작업을 의미합니다.
💡 함수(Function) : 한 가지의 기능을 하는 코드 묶음. Input을 받아서 처리하고 Output을 돌려주는 코드. 함수는 기능(function)을 의미한다
💡 for, while : 조건에 따라 반복 작업을 수행해야 할 때 사용하는 statement(반복문, iteration)
💡 IF : 조건에 따라 다른 명령을 수행하는 statement. (조건문, conditional statement)
💡 Cloud Computing : 사용자의 필요에 따라 Computing Resource를 할당해주는 시스템. 할당을 해주는 서버가 네트워크/서비스를 통해서 제공해주는 시스템. 지금은 ‘대'클라우드 시대다.
💡 (Apache) Hadoop : High-Availability Distributed Object-Oriented Platform의 약자
💡 ETL : Extract / Transform / Load. 다양한 데이터 소스로부터 데이터를 수집 및 처리하는데 사용되는 데이터 파이프라인데이터 분석가들이 분석에 사용할 데이터를 정의하게 되면, 데이터 엔지니어에게 요청을 해서 해당 데이터를 처리해주길 원한다.
데이터 엔지니어는 컴퓨터의 구조를 이해하고 데이터(특히, 최근에는 빅데이터)를 효율적으로 저장/관리/가공할 수 있는 데이터 파이프라인을 만드는 것
💡 Data Engineering : 빅데이터를 수집, 가공, 저장하는 모든 시스템을 구축/관리하는 과정. 대용량 데이터 처리를 위한 DB를 관리하는 작업을 말한다.
💡 모델링(Modeling) : 수학/통계적인 방법을 이용하여 데이터를 해석하는 과정 근본적인 개념은 수학적인 모델과 통계적인 모델의 개념에서 나온다. 데이터 사이언스에 사용하는 모델은 통계모델일 수도 있고, 데이터를 분석하는 어떤 시스템일 수도 있다.
데이터 분석 내용을 정리해서 공유하는 것도 중요한 능력이다. 데이터 분석은 “설득의 도구"로써 사용되기 때문에 분석한 내용을 전달하는 것도 중요하다. 시각화된 자료없이 코드만 들고 경영진을 찾아간다면, 내일 백수가 되는 마법을 경험할 수 있을 것이다.
데이터사이언스를 하는데 있어서 기본적인 수학지식이 필요하다! 선형대수학과 통계, 컴퓨터 지식은 선택이 아닌 필수다. 이번 시간에는 간단하게 기본 중의 기본에만 용어를 알아보도록 하자.