[Spark] ML Pipeline 만들기

Peter·2021년 7월 27일

pipeline spark

파이프 라인 만들기

전처리에 필요한 값들 불어오기

훈련에 사용할 알고리즘을 넣어주기

파이프라인에 도구들 넣어주기

트레인, 테스트셋 만들기

만든 파이프라인을 통해 학습 진행하고 테스트 결과 보기

평가기 선정

ParamGrid 사용하기

ParamGrid, Pipeline 적용한 모델 사용하기

parmagrid 에 의한 결과를 살펴보기

Spark

목록 보기

11/11

파이프 라인 만들기

전처리에 필요한 값들 불어오기

from pyspark.ml.feature import Imputer, StringIndexer, VectorAssembler, MinMaxScaler

# Gender
stringIndexer = StringIndexer(inputCol = "Gender", outputCol = 'GenderIndexed')

# Age
imputer = Imputer(strategy='mean', inputCols=['Age'], outputCols=['AgeImputed'])

# Vectorize
inputCols = ['Pclass', 'SibSp', 'Parch', 'Fare', 'AgeImputed', 'GenderIndexed']
assembler = VectorAssembler(inputCols=inputCols, outputCol="features")

# MinMaxScaler
minmax_scaler = MinMaxScaler(inputCol="features", outputCol="features_scaled")

stages = [stringIndexer, imputer, assembler, minmax_scaler]

전처리에 사용했던 피처 관련 라이브러리를 스테이지에 어레이 형태로 모아줌

훈련에 사용할 알고리즘을 넣어주기

from pyspark.ml.classification import LogisticRegression

algo = LogisticRegression(featuresCol="features_scaled", labelCol="Survived")
lr_stages = stages + [algo]

파이프라인에 사용할 알고리즘 모델도 어레이에 넣어줌

파이프라인에 도구들 넣어주기

from pyspark.ml import Pipeline
pipeline = Pipeline(stages = lr_stages)

스파크가 제공하는 파이프라인에 모아둔 어레이를 스테이지 인자로 넘겨줌

트레인, 테스트셋 만들기

df = data.select(['Survived', 'Pclass', 'Gender', 'Age', 'SibSp', 'Parch', 'Fare'])
df.show()

train, test = df.randomSplit([0.7, 0.3])

훈련에 사용할 컬럼들을 골라주고 트레인, 테스트셋 만들어줌

만든 파이프라인을 통해 학습 진행하고 테스트 결과 보기

lr_model = pipeline.fit(train)
lr_cv_predictions = lr_model.transform(test)
evaluator.evaluate(lr_cv_predictions)

0.8618733062330615

만든 파이프라인에 트레인셋을 학습시켜주고
transform 메소드로 테스트 값을 실행시켜주고 평가 메소드로 수치를 확인

평가기 선정

from pyspark.ml.evaluation import BinaryClassificationEvaluator

evaluator = BinaryClassificationEvaluator(labelCol='Survived', metricName='areaUnderROC')

평가 답안을 labelcol에 설정해주고 어떤 지표를 설정할지 metricName에 골라줌
areaUnderROC 를 사용

ParamGrid 사용하기

from pyspark.ml.tuning import ParamGridBuilder, CrossValidator

paramGrid = (ParamGridBuilder()
             .addGrid(algo.maxIter, [1, 5, 10])
             .build())

cv = CrossValidator(
    estimator=pipeline,
    estimatorParamMaps=paramGrid,
    evaluator=evaluator,
    numFolds=5
)

알고리즘에 필요한 하이퍼 파라미터를 여러개 옵션으로 설정해주고(여기서는 학습 횟수)
CrossValidator를 통해 각 옵션에 위에서 만든 도구들을 넣어줌

ParamGrid, Pipeline 적용한 모델 사용하기

# Run cross validations.
cvModel = cv.fit(train)
lr_cv_predictions = cvModel.transform(test)
evaluator.evaluate(lr_cv_predictions)

0.8603489159891599

종합해 학습한 cvModel를 통해 테스트를 진행하고 평가 진행

parmagrid 에 의한 결과를 살펴보기

import pandas as pd

params = [{p.name: v for p, v in m.items()} for m in cvModel.getEstimatorParamMaps()]
pd.DataFrame.from_dict([
    {cvModel.getEvaluator().getMetricName(): metric, **ps} 
    for ps, metric in zip(params, cvModel.avgMetrics)
])