Machine learning packages, functions (6)

호진·2021년 10월 24일
0
post-thumbnail

핵심 패키지와 함수

Pandas

  • read_scv()는 CSV 파일을 로컬 컴퓨터나 인터넷에서 읽어 판다스 데이터프레임으로 변환하는 함수다. 이 함수는 매우 많은 매개변수를 제공한다.
    sep는 CSV 파일의 구분자를 지정한다. 기본값은 콤마(.)이다.
    header에 데이터프레임의 열 이름으로 사용할 CSV 파일의 행 번호를 지정한다. 기본적으로 첫 번째 행을 열 이름으로 사용한다.
    skiprows는 파일에서 읽기 전에 건너뛸 행의 개수를 지정한다.
    nrows는 파일에서 읽을 행의 개수를 지정한다.

scikit-learn

  • PolynomialFeatures는 주어진 특성을 조합하여 새로운 특성을 만든다. degree는 최고 차수를 지정한다. 기본값은 2이다.
    interaction_only가 True이면 거듭제곱 항은 제외되고 특성 간의 곱셈 항만 추가된다. 기본값은 False이다.
    include_bias가 False이면 절편을 위한 특성을 추가하지 않는다. 기본값은 True이다.

  • Ridge는 규제가 있는 회귀 알고리즘인 릿지 회귀 모델을 훈련한다.
    alpha 매개변수로 규제의 강도를 조절한다. alpha 값이 클수록 규제가 세진다. 기본값은 1이다.
    solver 매개변수에 최적의 모델을 찾기 위한 방법을 지정할 수 있다. 기본값은 auto이며 데이터에 따라 자동으로 선택된다.
    random_stae는 solver가 sagsaga일 때 넘파이 난수 시드값을 지정할 수 있다.

  • Lasso는 규제가 있는 회귀 알고리즘인 라쏘 회귀 모델을 훈련한다. 이 클래스는 최적의 모델을 찾기 위해 좌표축을 따라 최적화를 수행해가는 좌표 하강법coordinate descent을 사용한다.
    alpha와 random_state 매개변수는 Ridge 클래스와 동일하다.
    max_iter는 알고리즘의 수행 반복 횟수를 지정한다. 기본값은 1000이다.

profile
💭(。•̀ᴗ-)✧

0개의 댓글