스트링 데이터를 종류에 맞게 숫자로 변환
Scikit-Learn은 sklearn.preprocessing 모듈 아래 여러 인코더 존재
- OneHotEncoder, LabelEncoder, OrdinalEncoder...
Spark MLlib의 경우 pyspark.ml.feature 모듈 밑에 두 개의 인코더 존재
- StringIndexer, OneHotEncoder
예시
from pyspark.ml.feature import StringIndexer
gender_indexer = StringIndexer(inputCol="Gender", outputCol="GenderIndexed")
gender_indexer_model = gender_indexer.fit(final_data)
final_data_with_transformed_gender_gender = gender_indexer_model.transform(final_data)
from pyspark.ml.feature import Imputer
imputer = Imputer(strategy='mean, inputCols=['Age'], outputCols=['AgeImputed'])
imputer_model = imputer.fit(final_data)
final_data_age_transformed = imputer_model.transform(final_data)