데이터 분석의 목적
데이터 분석가
- 현장에서 요구하는 자격요건과 우대사항을 보고 필요한 능력 파악
- 좋은 질문을 할 수 있는 역량, 필요한 데이터 선별능력같은 것도 중요함.
데이터 분석 절차
- 데이터 수집 -> 데이터 탐색 -> 데이터 전처리 -> 데이터 모델링
데이터 마이닝
- 통계학과 머신러닝에서 같은 의미의 용어롤 조금 다르게 사용하는 경우가 있다.
ex) 통계학 variable =:= 머신러닝 feature
- 함수의 기본 전제조건 : 일대일 대응(하나의 x에 대응하는 하나의 y가 필요)
- 알고리즘 : 변수 x를 넣어서 결과값 y를 도출하는 과정
데이터 분석 프로그램 툴
- 엑셀 : 편하지만 대용량 처리가 어렵다.
- 파이썬 : 덜 직관적이지만 다른 분석 툴 중에는 보기가 편하다.
- 아나콘다 : 쉬운 설치로 딥러닝 용도로 각광을 많이 받았음. 지금은 클라우드의 등장으로 살짝 주춤.
- 코랩 : 구글 드라이브를 이용. 실습 메인이 될 것. 별도 설치가 필요없음. 유료임
파이썬 기초문법
- numeric : integer, float
- dictionary, set, boolean
- sequence type : strings, list, tuple
튜플과 리스트
- 리스트는 가변집합, 튜플은 불변집합이다.
- 튜플 내에 설정한 리스트는 변경가능, 리스트 내 설정된 튜플은 변경불가.
딕셔너리
- 딕셔너리를 만들 때 key는 중복이 있으면 절대 안 된다.
- 딕셔너리에서 key가 될 수 있는 data type은 immutable이어야 한다.