Spark - Datasets
Datasets에 대해 알아보기전에 어떤 점 때문에 Datasets가 필요한지에 대해 알아보자.case class Listing(street: String, zip: Int, price: Int) val listingsDF = List(Listing("A", 0, 100), Listing("B", 1, 101), Listing("C", 2, 200)).toDF() val averagePricesDF = listingsDF .groupBy($"zip") .avg("price") .show()+---+----------+|zip|avg(price)|+---+----------+| 1| 101.0|| 2| 200.0|| 0| 100.0|+---+----------+ 위의 코드를 실행시키면 "zip"으로 그룹화..
2020. 2. 12.
Spark - Dataframe API (Part 2)
이전과 다른 예시를 가지고 Dataframe을 다뤄보려고 한다.https://www.kaggle.com/timoboz/superbowl-history-1967-2020/data 먼저 데이터를 살펴보면,Date,SB,Winner,Winner Pts,Loser,Loser Pts,MVP,Stadium,City,StateFeb 2 2020,LIV (54),Kansas City Chiefs,31,San Francisco 49ers,20,Patrick Mahomes,Hard Rock Stadium,Miami Gardens,FloridaFeb 3 2019,LIII (53),New England Patriots,13,Los Angeles Rams,3,Julian Edelman,Mercedes-Benz Stadium,A..
2020. 2. 11.