본문 바로가기

분류 전체보기114

Github 'Master' 브런치. 이제 안녕 https://www.bbc.com/news/technology-53050955 Github가 최근 벌어지고 있는 사건에 지지하는 의미로 수년간의 틀을 깨뜨렸다.바로 Master 브랜치 이름을 사용하지 않는 것이다. 개발자들이라면 Github에 입문할 때, 자연스럽게 맞닿는 글자는 바로 "Master"이다.기본이 되는 브랜치이며 특히, 회사에 따라 릴리즈 브랜치 용으로 사용하기도 한다.그래서 너무도 자연스럽게 "Master" 라는 말을 달고 산다. 이번 사건이 터지기 전까지는 개발자는 딱히 관련이 없을 것이라 생각했다.하지만 처음 생성 의도가 어떻든 "Master"를 변경하면서 적어도 개발자들에게 그 사회적인 의미를 되새겨주는 것 같다. 브랜치도 브랜치 이지만 약간 논외로 보면 아키텍처 중에 Master.. 2020. 6. 17.
Spark - RDD vs Dataframes vs Datasets RDD와 Dataframes, Datasets를 비교하는 글이 있어서 보려고 한다.중간중간 의역 및 생략이 있을 수 있다. 때문에 보다 자세한 글은 아래 원문을 참조https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html 우리는 언제, 왜 RDD, Dataframes, Datasets를 사용해야 할까? Resilient Distributed Dataset (RDD)RDD는 Spark 등장 이래로 주로 사용된 API 이다. Spark Core에서는 RDD는 변경할 수 없는(Immutable) 데이터의 집합으로 클러스터 내의 여러 노드에 분산되어 있다.(Transformati.. 2020. 2. 15.
Spark - Datasets Datasets에 대해 알아보기전에 어떤 점 때문에 Datasets가 필요한지에 대해 알아보자.case class Listing(street: String, zip: Int, price: Int) val listingsDF = List(Listing("A", 0, 100), Listing("B", 1, 101), Listing("C", 2, 200)).toDF() val averagePricesDF = listingsDF .groupBy($"zip") .avg("price") .show()+---+----------+|zip|avg(price)|+---+----------+| 1| 101.0|| 2| 200.0|| 0| 100.0|+---+----------+ 위의 코드를 실행시키면 "zip"으로 그룹화.. 2020. 2. 12.
Spark - Dataframe API (Part 2) 이전과 다른 예시를 가지고 Dataframe을 다뤄보려고 한다.https://www.kaggle.com/timoboz/superbowl-history-1967-2020/data 먼저 데이터를 살펴보면,Date,SB,Winner,Winner Pts,Loser,Loser Pts,MVP,Stadium,City,StateFeb 2 2020,LIV (54),Kansas City Chiefs,31,San Francisco 49ers,20,Patrick Mahomes,Hard Rock Stadium,Miami Gardens,FloridaFeb 3 2019,LIII (53),New England Patriots,13,Los Angeles Rams,3,Julian Edelman,Mercedes-Benz Stadium,A.. 2020. 2. 11.