혼공데분 with 파이썬 1,2장

cse 23·2023년 9월 6일
0

1-1)

데이터 분석이란?

올바른 의사결정을 돕기 위한 통찰

-기술통계: 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법
-가설검정 : 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 방법
-탐색적 데이터 분석: 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법

데이터분석가란?

프로그래밍 기술을 갖추고 있으며 통계학을 이해하며 정보를 시간적으로 표함 ->데이터 수집,처리,정제,분석,모델링

SQL(structured Query language) : 데이터 베이스를 다루기 위해 고안된 언어

파이썬 : 오픈소스,범용 프로그래밍 언어

-넘파이: nummerical python의 줄임말로 고성능 과학계산과 다차원배열을 위한 파이썬 패키지
-판다스: 데이터분석을 위한 전문 패키지 , 마이크로소프트 엑셀의 시트처럼 숫자와 문자를 섞어 표 형태로 저장가능
-맷플롯립: 파이썬 데이터 시각화를 위한 기본 패키지. 정적/동적 그래프를 그릴수 있으며 다른 패키지와 호환성이 좋음
-사이파이 : 넘파이 기반 수학과 과학기반 패키지
-사이킷런: 파이썬의 독보적인 머신러닝 패키지, 넘파이와 사이파이에 크게 의존-> 전체 데이터 과학분야에서 가장 널리 사용하는 머신러닝 패키지

데이터 마이닝: 데이터에서 패턴 혹은 지식을 추출하는 작업
머신러닝: 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 기술
-> 딥러닝도 머신러닝 알고리즘의 한 종류
모델: 머신러닝으로 학습한 소프트웨어 객체

1-2)

노트북/코랩메모장: 작성한 코랩파일
셀: 코랩에서 실행할수 있는 최소단위
텍스트 셀: 코드처럼 실행X,자유롭게 작성가능.
코드셀:파이썬 코드를 입력하고 실행할수 있는 셀

일반 프로그램과 노트북의 차이점: 일반 프로그램은 처음부터 끝까지 모든 코드가 실행/ 노트북은 셀 단위로 코드를 실행.-> 코드 순서에 주의
주의점: 코랩 노트북으로 동시에 사용할수 있는 구글 클라우드 가상서버는 최대 다섯개. 한개의 노트북을 12시간이상 실행할수 없음.

1-3)

문제에 맞는 데이터가 없을때-> 공개데이터세트를 찾아보거나 데이터과학과 관련된 온라인 포럼에 질문을 올리기

CSV: 콤마로 구분된 텍스트 파일
-한줄이 하나의 레코드로 콤마로 구분된 여러필드로 구성

chardet 패키지의 chardet.detect()함수 -> 문자 인코딩방식을 알아낼수있음

인코딩: 문자를 컴퓨터가 이해할수 있는 0과 1의 이진형태로 바꾸는것
UTF-8 : 전세게 모든 문자를 컴퓨터에 표현하기 위해 만들어진 유니코드를 인코딩하는 방식
EUC-KR:한글을 위한 완성형 인코딩(2바이트 사용)

NFC방식: 혼공(윈도우/리눅스)
NFD방식: ㅎㅗㄴㄱㅗㅇ(맥)

판다스
-> 데이터 프레임이라는 표 형식데이터로 저장
->가로를 세로로 나열한 2차원 배열과 비슷
->데이터프레임은 열마다 다른 데이터 타입을 사용할수 있음.

read_csv() : 판다스에서 csv파일을 읽을때 사용하는 함수
head()매서드:데이터프레임의 다섯개행 확인가능

if)CSV파일의 첫행이 열이름이 아니면?-> read_csv()호출시 header매개변수를 none으로 지정(데이터 첫행에 열이름이 없다는것을 알림) -> names 매개변수에 열 이름 리스트를 따로 전달

2-1)

API : 인증된 URL만 있으면 언제든지 필요한 데이터에 접근할수 있는 방식(웹사이트나 다른팀의 협조없이도 편리하게 데이터를 수집할수 있음.)
HTML:웹브라우저가 화면에 표시하는 문서의 한종류,웹페이지를 위한 표준언어
HTTP: 인터넷에서 웹페이지를 전송하는 기본 통신 방법

JSON:JavaSript Object Notation

json.dumps():파이썬 객체를 JSON 문자열로 변환하기
json.loads():JSON 문자열을 파이썬 객체로 변환하기
read_json():JSON 문자열을 데이터 프레임으로 변환하기

XML: eXtensible Markup Language ->컴퓨터,사람모두가 읽고쓰기 편하도록 고안

fromstring():XML 문자열을 파이썬 객체로 변환하기
findtext():자식 엘리먼트 확인하기
findall()메서드,for문: 동일한 이름을 가진 여러개의 자식 엘리먼트를 찾을때 사용

HTTP GET방식
호출 URL?파라미터=값&파라미터
ex) URL?format=jd=son&startDt=&endDt=&age=&authKey=인증키

requests 패키지:파이썬으로 API 호출하기

2-2)

웹스크래핑,웹 크롤링: 프로그램으로 웹사이트의 페이지를 옮겨가며 데이터를 추출하는 작업

requests.get():검색결과 페이지 HTML가져오기
뷰티플수프:HTML에서 데이터 추출하기

웹스크래핑시 주의할점
1.웹사이트에서 스크래핑을 허락했는지 확인
2.HTML 태그를 특정할수 있는지 확인

코딩기록:
https://colab.research.google.com/drive/1i7dfPoeDPGLvx_p6FhzoXGbGb6kSKWdV?usp=sharing

0개의 댓글