일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 프로그래머스
- Catalyst Optimizer
- Databricks
- 하둡2.0
- 하둡에코시스템
- 런타임데이터영역
- AWS Crawler
- freenom
- 데이터엔지니어링
- 데이터파이프라인
- 데이터 수집
- 카프카
- 하둡1.0
- 문맥교환
- 하둡
- EMR 구조
- 프로그래머스힙
- 데이터베이스복사
- 서버간 복사
- 스파크
- 빌드도구
- kafka 설치
- 지연연산
- lazy evaluation
- ORACLE문법
- 프로그래머스 큰 수 만들기
- ORACLE MSSQL차이
- Spark
- 실행엔진
- Spark 최적화
- Today
- Total
목록데이터파이프라인 (2)
띵유로그
EMR은 AWS에서 아파치 하둡, 스파크와 같은 빅데이터 프레임워크를 쉽게 실행할 수 있도록 관리해주는 클러스터 플랫폼입니다. 클러스터 플랫폼이다보니 scale- in/out이 쉽습니다. 아래 그림처럼 Master Node와 core node, task node로 구성되어있습니다. 1. Master Node Master Node는 이름에서 유추할 수 있듯이 클러스터를 관리합니다. 노드들 사이에 작업을 분배하고 정상종료되었는지 모니터링합니다. 2. Core Node와 TaskNode Core Node와 Task Node는 Master의 Worker노드입니다. 둘 다 하는 일은 비슷하지만, Core Node는 HDFS(디스크)를 가지고 있지만 Task Node는 HDFS가 없이 컴퓨팅만을 담당합니다. 따라서..
트위터에서 발생한 데이터를 kafka로 보내는 과정을 직접 해보려합니다. 먼저 aws에서 t2.medium 으로 인스턴스를 하나 시작했습니다. 인스턴스 시작하는 과정은 포스팅에 포함하지 않았습니다. 1. 자바 설치 카프카는 자바 기반이기 때문에 자바를 설치해주어야 합니다. java 가 잘 설치된걸 확인했다면 이제 wget명령어를 통해 kafka 를 설치해줍니다. 2. kafka 설치 똑같이 명령어를 실행시켰는데 에러가 나면 dlcdn.apache.org 홈페이지에 들어가서 파일 경로가 달라진건아닌지, 오타가 있지는 않는지 확인해봅니다. https://dlcdn.apache.org/kafka/3.0.0/ Index of /kafka/3.0.0 dlcdn.apache.org 그 후 압축을 풀어줍니다. 추가)..