일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 하둡1.0
- 데이터엔지니어링
- ORACLE문법
- 하둡
- 프로그래머스
- EMR 구조
- kafka 설치
- 런타임데이터영역
- 서버간 복사
- Databricks
- ORACLE MSSQL차이
- 지연연산
- 실행엔진
- freenom
- 문맥교환
- 데이터 수집
- 프로그래머스힙
- AWS Crawler
- Spark
- Spark 최적화
- Catalyst Optimizer
- 프로그래머스 큰 수 만들기
- 스파크
- 데이터베이스복사
- lazy evaluation
- 하둡2.0
- 빌드도구
- 카프카
- 데이터파이프라인
- 하둡에코시스템
- Today
- Total
목록Spark (4)
띵유로그
앞선 글에서 SPARK의 lazy evaluation과 in-memory등의 특성을 설명했다. 그렇다면 이러한 특성은 왜 유용할까? 어디에 유용할 까? 수많은 machine learning 알고리즘이 있지만, 대부분의 알고리즘은 iteration 에 기반한다. 여러 데이터를 가지고 반복작업을 하면서 최적화시키는 과정을 거친다. 여기서 SPARK 가 유용한 이유를 설명할 수 있다. 위 그림을 살펴보면 하둡은 각 작업이 끝난 후 disk에 저장하는 작업을 반복한다. 반면 SPARK 는 각 작업 후 결과를 memory 에 저장후 다시 활용한다. 즉, iteration이 많은 data science 에서는 매번 disk에 접근하는 하둡보다 spark가 훨씬 효율적인 것이다. SPARK에서 메모리에 저장해두고 바..
RDD에 대해서는 지난 글에서도 간단히 살펴보았다. https://thing-u.tistory.com/25?category=909947 [SPARK] SPARK DATAFRAME이란 - RDD와 어떻게 다른가? Spark 의 프로그래밍 API에는 고수준 API(구조적 API)와 저수준 API가 있습니다. 고수준 API(구조적 API) DataFrame SQL Dataset 저수준 API RDD 이번 포스팅에서는 고수준 API인 DataFrame에 대해 알아보고, RDD.. thing-u.tistory.com 이번 글에서는 RDD의 함수와 사용 방법을 알아보려한다. map, flatMap, filter, reduce등의 고차원 함수를 제공한다. 다음은 RDD클래스를 간단히 나타내본 코드이다. abstrac..
Spark 의 프로그래밍 API에는 고수준 API(구조적 API)와 저수준 API가 있습니다. 고수준 API(구조적 API) DataFrame SQL Dataset 저수준 API RDD 이번 포스팅에서는 고수준 API인 DataFrame에 대해 알아보고, RDD와 어떤점이 다른지 적어보려한다. 짧게 말하면 DataFrame은 API가 간결하면서 쿼리 최적화를 자동으로 해주기때문에 RDD보다 성능이 더 좋다. 보통 물리적으로 데이터 배치를 세밀하게 제어해야하는 상황에서 RDD를 사용한다. DataFrame은 RDD의 특징을 상속받고있기때문에 RDD에 대한 이해가 선행되어야한다. RDD란? RDD (Resilient Distributed Database) RDD란 오류에 강한 분산 데이터베이스이다. 만약, ..
Spark 는 하둡 에코시스템 중 분산데이터 처리기에 해당한다. 분산 데이터 처리기는 Spark, Tez, MapReduce등 많은 것이 있지만, Spark만의 장점이 무엇인지 알아보자. 1. 다양한 언어 지원 & 쉬운 프로그래밍 Spark는 Scala, java, python, R등 다양한 언어를 지원한다. (Spark내부적으로는 Scala로 동작한다.) live stream 데이터도 처리할 수 있다. 또 대화형작업이나 기계학습과 같은 반복적인 데이터 플로우를 쉽게 프로그래밍할 수 있다. * 참고로 python으로 작성하면 저수준 API인 RDD작성시 성능저하가 발생할 수 있다. JVM언어로 변환하는 과정에서 비용이 많이 발생하기 때문.. 고수준 API(Dataset, DataFrame등 )만사용하면 ..