일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- ORACLE MSSQL차이
- AWS Crawler
- 런타임데이터영역
- 지연연산
- 데이터파이프라인
- 데이터엔지니어링
- EMR 구조
- 문맥교환
- 스파크
- 하둡1.0
- kafka 설치
- 하둡
- Spark
- Catalyst Optimizer
- freenom
- Databricks
- 프로그래머스힙
- 하둡에코시스템
- 데이터 수집
- 카프카
- Spark 최적화
- 프로그래머스 큰 수 만들기
- 빌드도구
- ORACLE문법
- 서버간 복사
- 실행엔진
- 하둡2.0
- 데이터베이스복사
- 프로그래머스
- lazy evaluation
- Today
- Total
목록스파크 (2)
띵유로그
스파크의 기본 아키텍쳐에 대해 알아보겠습니다. 스파크는 컴퓨터의 리소스를 관리하는 Cluster Manger와 그 위에 동작하는 Spark application으로 구성되어있습니다. 1. 클러스터 매니져 클러스터 매니져는 스파크 어플리케이션의 리소스를 효율적으로 분배하는 역할을 합니다. 스파크는 태스크를 할당하기 위해 클러스터 매니져에 의존합니다. 할당가능한 excutor를 전달받으면 그대로 할당하는 역할만을 수행하기 때문에 매우 중요합니다. 클러스터 매니져는 스파크와 떼었다 붙일 수있고 3.0기준으로 스파크 standalone 클러스터 매니저, 하둡 YARN, 메소스, Kubernetes 등이 사용가능합니다. 각 종류에 대해 잘 정리되어있는 글이 있어 남겨둡니다. https://paranwater.ti..
Spark 는 하둡 에코시스템 중 분산데이터 처리기에 해당한다. 분산 데이터 처리기는 Spark, Tez, MapReduce등 많은 것이 있지만, Spark만의 장점이 무엇인지 알아보자. 1. 다양한 언어 지원 & 쉬운 프로그래밍 Spark는 Scala, java, python, R등 다양한 언어를 지원한다. (Spark내부적으로는 Scala로 동작한다.) live stream 데이터도 처리할 수 있다. 또 대화형작업이나 기계학습과 같은 반복적인 데이터 플로우를 쉽게 프로그래밍할 수 있다. * 참고로 python으로 작성하면 저수준 API인 RDD작성시 성능저하가 발생할 수 있다. JVM언어로 변환하는 과정에서 비용이 많이 발생하기 때문.. 고수준 API(Dataset, DataFrame등 )만사용하면 ..