Spark - Shuffling
Shuffling은 분산 시스템 환경에서 데이터가 움직이는 것(A Node -> B Node)을 의미한다. 간단한 예시 하나를 확인해보자.case class CFFPurchase(customer: Int, destination: String, price: Double) val purchasesRDD = sc.parallelize(List(CFFPurchase(100, "Geneva", 22.25), | CFFPurchase(300, "Zurich", 42.10), | CFFPurchase(100, "Fribourg", 12.40), | CFFPurchase(200, "st. Gallen", 8.20), | CFFPurchase(100, "Lucerne", 31.60), | CFFPurchase(300, ..
2020. 2. 3.