반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- kafka 설치
- 데이터베이스복사
- 하둡
- AWS Crawler
- 프로그래머스힙
- 데이터 수집
- 데이터파이프라인
- 카프카
- ORACLE문법
- 프로그래머스
- Spark 최적화
- Databricks
- 하둡1.0
- 런타임데이터영역
- Spark
- 빌드도구
- ORACLE MSSQL차이
- 스파크
- 프로그래머스 큰 수 만들기
- freenom
- 서버간 복사
- 문맥교환
- lazy evaluation
- EMR 구조
- 하둡에코시스템
- 하둡2.0
- Catalyst Optimizer
- 데이터엔지니어링
- 지연연산
- 실행엔진
Archives
- Today
- Total
띵유로그
SPARK - DATAFRAME, DATASET 본문
반응형
SPARK의 DATAFRAME은 비타입형, DATASET은 타입형입니다.
DATAFRAME
DATAFRAME이 비타입형이라고 하는데에 무리가 있을 수 있겠지만, 포인트는 데이터타입이 런타임에 결정된다는 것입니다.
DATAFRAME은 ROW type으로 구성된 DATASET입니다.
ROW는 연산에 최적화 된 인메모리 포맷입니다. 가비지컬렉션 등 추가로 관리가 필요한 jvm 의 타입이 아니라 연산이 효율적입니다.
DATASET
DATASET은 타입형입니다. 컴파일시간에 데이터타입이 결정됩니다.
JVM 기반 언어이기 때문에 스칼라, 자바에서만 지원하고 python 등에서는 dataset을 쓸 수 없습니다.
dataset을 사용하려면 스칼라-case class /자바 - Bean을 통해서 만들 수 있습니다.
컴파일시간에 데이터 타입 검증이 필요한게 아니라면 연산의 효율성을 위해 DATAFRAME을 사용하는 것이 좋아보입니다.
반응형
'DataEngineering > SPARK' 카테고리의 다른 글
[SPARK] 스파크 튜닝 방안 (0) | 2022.03.21 |
---|---|
[SPARK] 스파크 기본 아키텍쳐 (0) | 2022.03.03 |
[오류]java.lang.NoSuchMethodError: scala.reflect.internal... spark library 설정 (0) | 2022.01.12 |
[SPAKR] note (0) | 2021.11.04 |
[SPARK] SPARK 지연연산의 이점 (0) | 2021.08.18 |
Comments