PySpark RDD basic

김형수·2023년 6월 29일
0

spark

목록 보기
2/2
from pyspark import SparkConf, SparkContext
import collections

conf = SparkConf().setMaster("local").setAppName("RatingsHistogram")
sc = SparkContext(conf=conf)

lines = sc.textFile("./ml-100k/u.data")
ratings = lines.map(lambda x: x.split()[2])
result = ratings.countByValue()

sortedResults = collections.OrderedDict(sorted(result.items()))
for key, value in sortedResults.items():
    print("%s %i" % (key, value))

1. SparkConf와 SparkContext를 생성합니다.

from pyspark import SparkConf, SparkContext
import collections

conf = SparkConf().setMaster("local").setAppName("RatingsHistogram")
sc = SparkContext(conf=conf)

2. 데이터를 읽어 들입니다.

lines = sc.textFile("./ml-100k/u.data")

3. 평점을 추출합니다.

ratings = lines.map(lambda x: x.split()[2])

4. 평점을 세어 봅니다.

result = ratings.countByValue()

5. 결과를 정렬합니다.

sortedResults = collections.OrderedDict(sorted(result.items()))

6. 결과를 출력합니다.

for key, value in sortedResults.items():
    print("%s %i" % (key, value))

결론

Spark는 RDD를 사용하여 데이터를 처리합니다. RDD는 분산된 데이터 세트이며, Spark는 RDD를 사용하여 병렬로 작업을 수행할 수 있습니다.

0개의 댓글