PySpark RDD basic

김형수·2023년 6월 29일

spark

목록 보기

2/2

from pyspark import SparkConf, SparkContext
import collections

conf = SparkConf().setMaster("local").setAppName("RatingsHistogram")
sc = SparkContext(conf=conf)

lines = sc.textFile("./ml-100k/u.data")
ratings = lines.map(lambda x: x.split()[2])
result = ratings.countByValue()

sortedResults = collections.OrderedDict(sorted(result.items()))
for key, value in sortedResults.items():
    print("%s %i" % (key, value))

1. SparkConf와 SparkContext를 생성합니다.

from pyspark import SparkConf, SparkContext
import collections

conf = SparkConf().setMaster("local").setAppName("RatingsHistogram")
sc = SparkContext(conf=conf)

2. 데이터를 읽어 들입니다.

lines = sc.textFile("./ml-100k/u.data")

3. 평점을 추출합니다.

ratings = lines.map(lambda x: x.split()[2])

4. 평점을 세어 봅니다.

result = ratings.countByValue()

5. 결과를 정렬합니다.

sortedResults = collections.OrderedDict(sorted(result.items()))

6. 결과를 출력합니다.

for key, value in sortedResults.items():
    print("%s %i" % (key, value))

결론

Spark는 RDD를 사용하여 데이터를 처리합니다. RDD는 분산된 데이터 세트이며, Spark는 RDD를 사용하여 병렬로 작업을 수행할 수 있습니다.

김형수

이전 포스트

PySpark RDD basic

spark

1. SparkConf와 SparkContext를 생성합니다.

2. 데이터를 읽어 들입니다.

3. 평점을 추출합니다.

4. 평점을 세어 봅니다.

5. 결과를 정렬합니다.

6. 결과를 출력합니다.

결론

Resilient Distributed Dataset (RDD)

0개의 댓글