[Pyspark 101] 설치 및 실행

2innnnn0·2021년 7월 1일

목록 보기

1/1

!pip install pyspark

from pyspark.sql import SparkSession
spark=SparkSession.builder.appName('Dataframe').getOrCreate()
spark

df = spark.read.option('header','true').csv('train.csv',inferSchema=True)

option('header','true')를 통해 첫행을 컬럼명으로 지정. 주의할 점은 모두 소문자로 작성한다.
csv(, inferSchema=True)를 통해 데이터형을 추론된 것으로 자동적으로 부여된다. (수치형은 IntegerType 또는 DoubleType, 문자열은 StringType) False로 하면 StringType으로 모두 설정된다. 데이터형을 불러올 때 잘 가져와야 나중에 번거롭지 않다.

df.show()

df.head(5)

성장하고 싶은 데이터분석가.

pyspark