본문 바로가기

Spark

(2)

Spark 실행 모델 - RDD부터 Task까지 해당 학습 문서는 Spark가 데이터를 어떻게 표현하고, 어떤 순서로 실행하는지를 다룹니다.데이터의 표현 방식 - RDD, Dataframe, DatasetSpark에서 데이터를 다루는 방식은 세가지가 있습니다.RDD(Resilient Distributed Dataset)Spark의 가장 기본적인 데이터 추상화입니다. 여러 서버에 분산된 데이터를 하나의 컬렉션처럼 다룰 수 있게 해주는 객체입니다. 이름 그대로 분산(Distributed)되어 있고, 장애가 발생해도 복구(Resilient)할 수 있습니다. 다만 RDD는 데이터의 구조(스키마)를 모릅니다. 단순히 "Java 객체들의 묶음"에 가깝기 때문에 Spark가 내부적으로 최적화하기 어렵습니다.DataFrameRDD의 한계를 극복하기 위해 만들어졌습니..

빅데이터, Hadoop 그리고 Spark 해당 학습 문서는 Hadoop과 Spark가 등장한 배경 및 주요 기능에 대한 대략적인 흐름을 보여주기 위해 작성되었습니다. 더 자세한 동작 원리 및 아키텍처는 다른 글들을 참고해주세요빅데이터의 등장2000년대 후반 스마트폰과 IoT기기들의 등장으로 데이터의 양과 이를 처리할 수 있는 시스템에 대한 수요가 기하급수적으로 증가했습니다. 이러한 데이터의 홍수(Exaflood)가 발생하자 기존의 인프라로 운영하기엔 네트워크 마비 및 스토리지 기술 문제가 발생했습니다. 2012년 4월 아마존 클라우드 컨퍼런스에서 존 라우저(John Rauser)는 이러한 빅데이터를 다음과 같이 정의했습니다.“서버 한대로 처리할 수 없는 규모의 데이터”그렇다면 이 방대한 데이터를 처리하기 위한 현실적인 대안은 무엇일까요?Scal..

이전 1 다음

티스토리툴바