반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 프로그래머스
- 데이터엔지니어링
- ORACLE MSSQL차이
- freenom
- AWS Crawler
- 하둡2.0
- ORACLE문법
- 서버간 복사
- 하둡에코시스템
- 지연연산
- 데이터 수집
- Catalyst Optimizer
- 하둡1.0
- 런타임데이터영역
- lazy evaluation
- 데이터베이스복사
- 데이터파이프라인
- Spark 최적화
- 카프카
- Spark
- Databricks
- 스파크
- 프로그래머스힙
- EMR 구조
- kafka 설치
- 실행엔진
- 하둡
- 빌드도구
- 문맥교환
- 프로그래머스 큰 수 만들기
Archives
- Today
- Total
목록지연연산 (1)
띵유로그
[SPARK] SPARK 지연연산의 이점
앞선 글에서 SPARK의 lazy evaluation과 in-memory등의 특성을 설명했다. 그렇다면 이러한 특성은 왜 유용할까? 어디에 유용할 까? 수많은 machine learning 알고리즘이 있지만, 대부분의 알고리즘은 iteration 에 기반한다. 여러 데이터를 가지고 반복작업을 하면서 최적화시키는 과정을 거친다. 여기서 SPARK 가 유용한 이유를 설명할 수 있다. 위 그림을 살펴보면 하둡은 각 작업이 끝난 후 disk에 저장하는 작업을 반복한다. 반면 SPARK 는 각 작업 후 결과를 memory 에 저장후 다시 활용한다. 즉, iteration이 많은 data science 에서는 매번 disk에 접근하는 하둡보다 spark가 훨씬 효율적인 것이다. SPARK에서 메모리에 저장해두고 바..
DataEngineering/SPARK
2021. 8. 18. 00:17