Machine learning packages, functions (9)

호진·2021년 11월 13일
0

pandas

  • info()는 데이터 프레임의 요약된 정보를 출력한다. 인덱스와 컬럼 타입을 출력하고 널이 아닌 값의 개수, 메모리 사용량을 제공한다. verbose 매개변수의 기본값 True를 False로 바꾸면 각 열에 대한 정보를 출력하지 않는다.

  • describe()는 데이터프레임 열의 통계 값을 제공한다. 수치형일 경우 최소, 최대, 평균, 표준편차와 사분위값 등이 출력된다.
    percentiles 매개변수에서 백분위수를 지정한다. 기본값은 [0.25, 0.5, 0.75] 이다.

scikit-learn

  • DecisionTreeClassifier는 결정 트리 분류 클래스이다.
    criterion 매개변수는 불순도를 지정하며 기본값은 'gini'이고, 'entropy'를 선택하여 엔트로피 불순도를 사용할 수 있다.
    splitter 매개변수는 노드를 분할하는 전략을 선택한다. 기본값은 'best'로 정보 이득이 최대가 되도록 분할한다. 'random'이면 임의로 노드를 분할한다.
    max_depth는 트리가 성장할 최대 깊이를 지정한다. 기본값은 None으로 리프 노드가 순수하거나 min_samples_split보다 샘플 개수가 적을 때까지 성장한다.
    min_samples_split은 노드를 나누기 위한 최소 샘플 개수이다. 기본값은 2이다.
    max_features 매개변수는 최적의 분할을 위해 탐색할 특성의 개수를 지정한다. 기본값은 None으로 모든 특성을 사용한다.
  • plot_tree()는 트리 모델을 시각화 한다. 첫 번재 매개변수로 결정 트리 모델 객체를 전달한다.
    max_depth 매개변수로 특성의 이름을 지정할 수 있다.
    filled 매개변수를 True로 지정하면 타깃값에 따라 노드 안에 색을 채운다.
profile
💭(。•̀ᴗ-)✧

0개의 댓글