AICE Basic 자격 시험 대비 강의를 들으며
데이터 분석의 전반적 개요 및 AIDU ez 사용법을 알아보았다.

AI적용 프로세스

  1. 문제 정의 - 목적과 목표
  2. 데이터 수집 - 가능한 많고 깨끗한 데이터
  3. 데이터 분석 및 전처리 - 중요한 데이터를 찾고, 사전 준비
  4. AI 모델링 - 학습기법을 선택하고 모델을 생성/평가
  5. AI 적용 - 만든 모델을 시스템화 하고 유지보수

실습 - 음원 흥행 가능성 예측하기

문제 정의 및 데이터 수집하기

데이터 분석 및 전처리 실습하기

상관관계 파악

상관관계가 높은 피처를 찾기 위해 히트맵을 사용.
상관관계가 높다.
-> 두 컬럼 사이에 선형성이 있을 뿐 인과간계가 있다는 것이 아님.

옵션에서 데이터의 범위는 항상 끝까지로 드래그 해서 설정해야 함.

컬럼들이 너무 많다면
히트맵을 통해 상관관계가 낮은 변수들을 분석해 삭제할 수 있을 것이다.
이 예시에서는 15개 뿐이므로 하나라도 없으면 아쉬운 상황이라 없애지 않는다.

이상치 파악

이상치를 찾기 위해서는 박스 차트를 사용해야 함.
이상치가 심해보이지 않을 때는 min max scaling을,
이상치가 심해보일 때는 standard scaling을 사용.

기초 통계

표준 편차:
평균을 기준으로 데이터가 평균적으로 얼마나 벗어나 있는가에 대한 것.

profile
유후랄라 개발일기

0개의 댓글