'데이터파이프라인' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록데이터파이프라인 (2)

띵유로그

[데이터 분석 파이프라인] EMR 구조와 실행

EMR은 AWS에서 아파치 하둡, 스파크와 같은 빅데이터 프레임워크를 쉽게 실행할 수 있도록 관리해주는 클러스터 플랫폼입니다. 클러스터 플랫폼이다보니 scale- in/out이 쉽습니다. 아래 그림처럼 Master Node와 core node, task node로 구성되어있습니다. 1. Master Node Master Node는 이름에서 유추할 수 있듯이 클러스터를 관리합니다. 노드들 사이에 작업을 분배하고 정상종료되었는지 모니터링합니다. 2. Core Node와 TaskNode Core Node와 Task Node는 Master의 Worker노드입니다. 둘 다 하는 일은 비슷하지만, Core Node는 HDFS(디스크)를 가지고 있지만 Task Node는 HDFS가 없이 컴퓨팅만을 담당합니다. 따라서..

DataEngineering 2022. 2. 12. 00:30

[데이터파이프라인]kafka 설치 ~ 토픽생성

트위터에서 발생한 데이터를 kafka로 보내는 과정을 직접 해보려합니다. 먼저 aws에서 t2.medium 으로 인스턴스를 하나 시작했습니다. 인스턴스 시작하는 과정은 포스팅에 포함하지 않았습니다. 1. 자바 설치 카프카는 자바 기반이기 때문에 자바를 설치해주어야 합니다. java 가 잘 설치된걸 확인했다면 이제 wget명령어를 통해 kafka 를 설치해줍니다. 2. kafka 설치 똑같이 명령어를 실행시켰는데 에러가 나면 dlcdn.apache.org 홈페이지에 들어가서 파일 경로가 달라진건아닌지, 오타가 있지는 않는지 확인해봅니다. https://dlcdn.apache.org/kafka/3.0.0/ Index of /kafka/3.0.0 dlcdn.apache.org 그 후 압축을 풀어줍니다. 추가)..

DataEngineering 2022. 1. 16. 17:31

이전 Prev 1 Next 다음

목록데이터파이프라인 (2)

띵유로그

티스토리툴바