반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 데이터파이프라인
- Catalyst Optimizer
- 프로그래머스 큰 수 만들기
- 프로그래머스
- ORACLE문법
- 데이터베이스복사
- 스파크
- 데이터 수집
- 지연연산
- 하둡2.0
- 데이터엔지니어링
- 하둡
- 하둡1.0
- kafka 설치
- lazy evaluation
- freenom
- 빌드도구
- Databricks
- 문맥교환
- AWS Crawler
- 런타임데이터영역
- Spark 최적화
- Spark
- 실행엔진
- 카프카
- 하둡에코시스템
- 프로그래머스힙
- 서버간 복사
- ORACLE MSSQL차이
- EMR 구조
Archives
- Today
- Total
목록EMR 구조 (1)
띵유로그
[데이터 분석 파이프라인] EMR 구조와 실행
EMR은 AWS에서 아파치 하둡, 스파크와 같은 빅데이터 프레임워크를 쉽게 실행할 수 있도록 관리해주는 클러스터 플랫폼입니다. 클러스터 플랫폼이다보니 scale- in/out이 쉽습니다. 아래 그림처럼 Master Node와 core node, task node로 구성되어있습니다. 1. Master Node Master Node는 이름에서 유추할 수 있듯이 클러스터를 관리합니다. 노드들 사이에 작업을 분배하고 정상종료되었는지 모니터링합니다. 2. Core Node와 TaskNode Core Node와 Task Node는 Master의 Worker노드입니다. 둘 다 하는 일은 비슷하지만, Core Node는 HDFS(디스크)를 가지고 있지만 Task Node는 HDFS가 없이 컴퓨팅만을 담당합니다. 따라서..
DataEngineering
2022. 2. 12. 00:30