TIL - DAY 7

jihan kong·2021년 7월 22일
0
post-thumbnail

2021 프로그래머스 국민대 여름방학 인공지능 과정

7일차
오늘은 EDA에 대해서 학습하였다. EDA라는 데이터 그 자체만으로 인사이트를 얻어내는 접근법이라는 것을 배웠다. 여러 라이브러리를 통해 데이터를 시각화하고 통계적으로 유의미한 수치들을 이끌어 내는것, 데이터 사이언스의 기본적이면서도 핵심적인 부분이 아닐까 싶다.

오늘 학습한 내용은 4학년 1학기때 '비즈니스 애널리틱스 개론' 과목에서 배웠던 내용들과 맥을 같이해서 이해하기가 조금 더 수월했다. 조금 더 통계적인 부분에 집중하기 위해 SPSS라는 통계프로그램을 사용했지만 결국 로지스틱 회귀모형, 사례기반추론, SVM, 인공신경망, 선형계획법(LP) 등의 모델들을 사용해서 어떠한 데이터셋에서 유의미한 상관관계를 도출하는 것이 공통점이었다.

또한, 데이터 전처리라는 definition에 대해서 학습했었는데, 데이터 모델러의 주관 하에 변수의 분포 중 '결측값'과 '이상치(Outlier)'를 제거하고 이를 통해 분석을 진행하는 것이 가장 먼저 선행되어야하는 것이라고 배웠다.

가설을 세우고 검정하는 것, 그리고 이를 위해 numpy, pandas, seaborn, matplotlib 등의 라이브러리가 쉽고 효율적으로 데이터셋을 분석하는 것을 도와주기에 파이썬이 데이터 사이언스에 최적화된 것이 아닌가 싶다.

profile
학습하며 도전하는 것을 즐기는 개발자

0개의 댓글