반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 데이터엔지니어링
- Catalyst Optimizer
- 서버간 복사
- Spark 최적화
- ORACLE MSSQL차이
- 카프카
- 데이터베이스복사
- 하둡
- 문맥교환
- 하둡2.0
- 하둡에코시스템
- 프로그래머스
- AWS Crawler
- Spark
- 스파크
- kafka 설치
- 실행엔진
- 프로그래머스 큰 수 만들기
- ORACLE문법
- EMR 구조
- 빌드도구
- lazy evaluation
- 프로그래머스힙
- 데이터파이프라인
- 하둡1.0
- 런타임데이터영역
- Databricks
- 지연연산
- freenom
- 데이터 수집
Archives
- Today
- Total
목록Spark 최적화 (1)
띵유로그
[SPARK] SPARK DATAFRAME이란 - RDD와 어떻게 다른가?
Spark 의 프로그래밍 API에는 고수준 API(구조적 API)와 저수준 API가 있습니다. 고수준 API(구조적 API) DataFrame SQL Dataset 저수준 API RDD 이번 포스팅에서는 고수준 API인 DataFrame에 대해 알아보고, RDD와 어떤점이 다른지 적어보려한다. 짧게 말하면 DataFrame은 API가 간결하면서 쿼리 최적화를 자동으로 해주기때문에 RDD보다 성능이 더 좋다. 보통 물리적으로 데이터 배치를 세밀하게 제어해야하는 상황에서 RDD를 사용한다. DataFrame은 RDD의 특징을 상속받고있기때문에 RDD에 대한 이해가 선행되어야한다. RDD란? RDD (Resilient Distributed Database) RDD란 오류에 강한 분산 데이터베이스이다. 만약, ..
DataEngineering/SPARK
2020. 12. 6. 20:53