일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 서버간 복사
- 지연연산
- kafka 설치
- 하둡1.0
- 스파크
- Spark 최적화
- Spark
- 문맥교환
- 런타임데이터영역
- EMR 구조
- 하둡2.0
- ORACLE문법
- ORACLE MSSQL차이
- 데이터파이프라인
- 프로그래머스힙
- 데이터베이스복사
- 프로그래머스 큰 수 만들기
- 하둡
- 데이터엔지니어링
- Catalyst Optimizer
- 하둡에코시스템
- 카프카
- freenom
- AWS Crawler
- 프로그래머스
- 실행엔진
- 데이터 수집
- 빌드도구
- lazy evaluation
- Databricks
- Today
- Total
띵유로그
[데이터파이프라인] Glue 본문
AWS Glue를 통해 메타데이터를 관리할 수 있습니다.
이번 포스팅에서는 Glue에 대해서 알아보겠습니다.
Glue는 ETL Work flow를 정의하고 job을 돌릴 수 있습니다.
glue 의 기능은 크게 3가지 정도로 볼 수 있습니다.
1. Data Catalog : Meta Data Store
2. Aws Glue Crawler : 저장소에서 자동으로 데이터를 스캔,분류, 스키마정보 추출 할 수 있도록 crawler를 만들 수 있습니다.
3. Aws Glue ETL 연산 : Job, Stream 서비스 분석 가능하고 Trigger 기능을 제공합니다.
각 항목을 좀 더 자세하게 살펴보겠습니다.
1. Data Catalog
보통 서비스 운영시 하나의 DB만을 사용하지 않습니다. RedShift, S3, RDS, EC2에서 동작중인 Database등 여러가지 DB들이 있을 수 있습니다. 이렇게 산발적으로 DB가 운영되면 메타정보들을 통합 관리하기가 어려워집니다.
Glue 서비스는 이를 해결해서, 어떤 데이터가 어떤 형태(스키마)로 어디에 저장되어있는지 확인하게 해줍니다.
이렇게 한군데에 meta정보를 통합관리하면 보기 쉬울 뿐만아니라, 다른 서비스를 추가하기도 쉬워집니다. athena, redshift spectrum, emr 등에서 catalog에 접근해서 바로 ETL 분석을 할 수 있기 때문입니다.
*참고)
athena : S3에 있는 데이터를 간편하게 분석할 수 있는 대화형 쿼리 플랫폼. 서버리스여서 인프라 관리할 필요도 없고 쿼리 사용량에 대해서만 비용을 지불합니다.
redshift spectrum : redshift에 테이블을 로드하지 않고 s3 파일에서 데이터 분석 가능
2. Glue Crawler
최근에는 S3자체에서 간단한 sql 쿼리 작성이 가능해지면서 유명무실 해진 서비스라고 합니다.
S3 에 저장되어있는 데이터를 crawler 기능을 통해 SQL 로 분석할 수 있습니다.
https://thing-u.tistory.com/74
'DataEngineering' 카테고리의 다른 글
[데이터파이프라인] Presto - Mysql 연동 (0) | 2022.03.01 |
---|---|
[데이터파이프라인] Presto (0) | 2022.02.28 |
[데이터파이프라인] AWS Glue Crawler 시작하기 (0) | 2022.02.17 |
[데이터파이프라인] EMR에서 Spark 모니터링(Ganglia) (0) | 2022.02.12 |
[데이터 분석 파이프라인] EMR 구조와 실행 (0) | 2022.02.12 |