국내 최초 빅데이터 연합동아리 BOAZ에서 제 17회 오프라인 컨퍼런스가 1월 28일 토요일 13:00~18:00에 서울시청 서소문별관 후생동 4층 강당에서 개최된다고 합니다.관심 있으신 분들은 컨퍼런스에 참석해서 들어보시면 좋을 것 같아요~신청은 온오프믹스에서 가능하
타이타닉호 승객 변수를 분석하여 생존율과의 상관관계를 찾고 생존과 가장 상관도가 높은 변수는 무엇인지 분석한다. 상관 분석을 위해 피어슨 상관 계수를 사용하고 변수 간의 상관관계는 시각화하여 분석한다.
Selenium 라이브러리를 사용하여 동적 웹 페이지 크롤링을 실습한다. 커피 브랜드 중 하나인 커피빈의 전국 매장 정보를 크롤링해보자.
라이브러리 설치BeauitfulSoup을 임포트하여 사용연습용 html을 작성한다.BeautifulSoup 객체를 생성한다.객체에 저장된 html 내용을 확인한다.: 3에서는 분석할 HTML의 실제 웹페이지를 사용하지 않고 html 구조를 작성한 문자열을 사용한다.:
: www.data.go.kr: 2017년부터 현재까지 우리나라에 입국한 중국인의 수 크롤링CODE 0 전체 작업 스토리를 구성한다.06행 : 데이터를 수집할 국가 코드를 입력받는다.07행 : 데이터를 수집할 시작 연도를 입력받는다.08행 : 데이터를 수집할 마지막 연
: 데이터를 수집하는 기술에는 스크레이핑과 크롤링이 있다.: 스크레이핑은 웹 사이트에서 특정 데이터를 수집하는 것이다.: 크롤링은 크롤러 또는 스파이더라는 프로그램으로 웹 사이트에서 데이터를 추출하는 것이다.: 웹에서 데이터를 수집하는 작업을 통틀어 크롤링이라고 한다.
주어진 문제를 명확히 정의한다. 주어진 문제를 정확히 이해해야만 필요한 데이터와 접근 방법을 결정할 수 있다.문제 해결에 필요한 데이터를 구한다. 데이터가 이미 존재하는 경우에는 기존의 데이터에서 필요한 부분을 추출하고, 그렇지 않은 경우에는 직접 수집한다.데이터를 분
# 데이터 문제 정의하기 1. 데이터 문제 해결 단계 주어진 문제를 명확히 정의한다. 주어진 문제를 정확히 이해해야만 필요한 데이터와 접근 방법을 결정할 수 있다. 문제 해결에 필요한 데이터를 구한다. 데이터가 이미 존재하는 경우에는 기존의 데이터에서 필요한 부분을 추
: 데이터 처리에 유용한 R의 기본 기능을 실습으로 알아볼 것이다. R : 실제 통계 및 시각화를 처리하는 프로그램, Rstudio : R을 편리하게 사용할 수 있는 환경을 제공
: 이번 실습에는 자동차 모델별 연비와 이와 관련된 다양한 스펙을 담은 mtcars라는 데이터 셋을 사용한다.
연속형 데이터 -> 평균, 표준편차와 같은 자료 요약 ex) 키, 나이, 가격 등범주형 데이터 -> 빈도, 백분율과 같은 자료 요약 ex) 성별, 성씨 등표본이라 불리느 일부 자료를 수집해 전체 모집합에 대한 결론을 유추추론은 가설 검정, 수치의 특징 계산, 데이터 간
Reinforcement Learning (강화 학습) : 현재 상태 S에서 행동 a를 결정하고 그에 따른 보상을 받아 행동을 수정한다. : Q테이블은 각 상태집합에서 행동에 따른 우선순위가 있는 테이블이다. : Q(S, a)는 상태 S에서 a라는 행동을 했을때의 이득
passengerId : 탑승객의 고유 아이디Survival : 생존여부(0: 사망, 1: 생존)Pclass : 등실의 등급Name : 이름Sex : 성별Age : 나이Sibsp : 함께 탑승한 형제자매, 아내 남편의 수Parch : 함께 탑승한 부모, 자식의 수Tic
: csv 파일을 Pandas DataFrame class 로 불러오기 위해 read_csv() 매서드를 활용: info() 매서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, Dtype 에 대한 정보를 알 수 있다.: shape 어트리뷰트를 쓰면 데이터의 행갯수
Sequence data: 음성 인식, 자연어 등이 Sequence data의 예시: 이전에 데이터들을 기반으로 현재의 데이터를 이해하는 것이 Sequene data이다.: NN(Neural Network), CNN(Convolutional Neural Network)