Day.16) Data Preprocessing(1)-데이터관련 필수라이브러리 1

Nr.kwon·2022년 4월 11일
0

AI

목록 보기
9/10
post-thumbnail

본문 전체출처: hello AI 교재

1/4.학습내용

  • data Preprocessing (with. abalone data🐚)

    이론- 데이터전처리:머신러닝과정의 80~90%비중차지하는 과정 ex)의사소견데이터수집

    • scaling=feature들의 크기 균일화
    • sampling=클래스의 불균형조정
    • dimensionality reduction=다차원의 오류예방
    • categorical variable to numeric variable=범주형→수치형 데이터로 바꿔서 불필요한 연산 줄이고 결과값 명확히함
  • scaling: 변수의 크기를 일정화 시키는 작업
    불러온 데이터에서 출력범위 지정 및 삭제 편집
    ①Min Hello AI -Max Scaling : Feature들이 같은 조건에서 학습 될 수 있게 하는 기법
    ②StandardScaler: z-score라고 부르는 데이터를 통계적으로 표준정규분포화 시켜 스케일링 하는 방식

  • sampling:클래스 불균형 문제 해결(알고리즘=imblearn/SMOTE)
    ①Oversampling:적은 클래스의 수를 증가
    ②Undersampling:많은 클래스의 수를 감소
    +SMOTE(Synthetic Minority Oversampling Technique): 소수 클래스의 점을 하나 선택해 k개의 가까운 데이터샘플을 찾고 그 사이에 새로운 점을 생성하는 방식(장:①데이터 손실적음. ②과적합완화)

  • dimensionality reduction
    차원의 저주:고차원에서 데이터를 분석하거나 다룰 때 발생
    해결책=PCA(주 성분 분석,Principal Component Analysis)

  • categorical variable to numeric variable
    :범주형 데이터=문자열 표시 but.
    data를 활용하여 모델화하고 학습하기 위해서는 모두 수치화 해야함
    ① Label Encoding: n개의 범주형 데이터를 0 ~ n-1 의 연속적인 수치 데이터로 표현. (장=간단 단=문제를 단순화시킬수 있음)
    ② One-hot Encoding: n개의 범주형 데이터를 n개의 비트 벡터로 표현.은 서로 다른 범주에 대해서는 벡터 내적을 취할경우, 서로 다른 범주를 독립적으로 표현. (동일영역의 값을 가질 수 없음)

  • Unsupervised Learning(비지도학습)
    Clustering(알고리즘K-Means Clustering/Hierarchical Clustering)
    ① K-Means Clustering:각 클러스터에 할당된 데이터 포인트의 평균 좌표를 이용해 중심점을 반복적으로 업데이트 하며 클러스터를 형성(할당이 바뀌지 않을 때까지 반복) 점사이 거리 측정방법2가지=Manhattan Distance(수직)/Euclidean Distance(초단거리)
    ② Hierarchical Clustering:거리(Distance) 또는 유사도(Similarity)를 기반으로 클러스터를 형성

https://github.com/astraea0119/das2/blob/24d3f3942f43fa7a30e1bb6cbefcdd69082bd29d/preprocessor.ipynb

2/4.학습내용 중 난관 또는 미제

난제1: 오탈자. 수도없어서 셀수가 없음

3/4.해결방법

난제1: 계속 고치면서 감각습득

4/4.ㅅㄱ(소감/성과)

소감1) 드디어 colab이 수업에 도입되어 오류도 금방수정하고 진도를 따라갈 수 있었다. 수업에 따라서 코드를 짜고, 붙여넣고 있지만
혼자 코딩할 상황에 놓이면 나는 아직 어떤구성과 명령도 생각해낼 수 없다.
복습하면서 스스로 코드를 짜보고 오류나는 부분을 다시 체크해봐야겠다.

성과1) 김영욱강사님의 머신러닝 관련 자료 git= https://github.com/KoreaEva/AI
유튜브 이수안컴퓨터 검색=https://www.youtube.com/watch?v=rWz582-yKuQ&list=PL7ZVZgsnLwEEd3-h-jySLz4wT154r7VVr

profile
Affiliated with 2022 Daegu AI School .

0개의 댓글