띵유로그

[데이터파이프라인] Glue 본문

DataEngineering

[데이터파이프라인] Glue

띵유 2022. 2. 22. 22:11
반응형

AWS Glue를 통해 메타데이터를 관리할 수 있습니다.

이번 포스팅에서는 Glue에 대해서 알아보겠습니다.

 

Glue는 ETL Work flow를 정의하고 job을 돌릴 수 있습니다.

glue 의 기능은 크게 3가지 정도로 볼 수 있습니다.

1. Data Catalog : Meta Data Store

2. Aws Glue Crawler : 저장소에서 자동으로 데이터를 스캔,분류, 스키마정보 추출 할 수 있도록 crawler를 만들 수 있습니다.

3. Aws Glue ETL 연산 : Job, Stream 서비스 분석 가능하고 Trigger 기능을 제공합니다.

 

각 항목을 좀 더 자세하게 살펴보겠습니다. 

1. Data Catalog 

보통 서비스 운영시 하나의 DB만을 사용하지 않습니다. RedShift, S3, RDS, EC2에서 동작중인 Database등 여러가지 DB들이 있을 수 있습니다. 이렇게 산발적으로 DB가 운영되면 메타정보들을 통합 관리하기가 어려워집니다.

Glue 서비스는 이를 해결해서, 어떤 데이터가 어떤 형태(스키마)로 어디에 저장되어있는지 확인하게 해줍니다. 


이렇게 한군데에 meta정보를 통합관리하면 보기 쉬울 뿐만아니라, 다른 서비스를 추가하기도 쉬워집니다. athena, redshift spectrum, emr 등에서 catalog에 접근해서 바로 ETL 분석을 할 수 있기 때문입니다. 
*참고)
athena : S3에 있는 데이터를 간편하게 분석할 수 있는 대화형 쿼리 플랫폼. 서버리스여서 인프라 관리할 필요도 없고 쿼리 사용량에 대해서만 비용을 지불합니다.
redshift spectrum : redshift에 테이블을 로드하지 않고 s3 파일에서 데이터 분석 가능 

 

2. Glue Crawler

최근에는 S3자체에서 간단한 sql 쿼리 작성이 가능해지면서 유명무실 해진 서비스라고 합니다.

S3 에 저장되어있는 데이터를 crawler 기능을 통해 SQL 로 분석할 수 있습니다.

 

https://thing-u.tistory.com/74

 

[데이터파이프라인] AWS Glue Crawler 시작하기

1. 데이터베이스를 만들어줍니다. 2. 크롤러 탭에서 크롤러를 추가해줍니다.  3. 상세 설정 일정은 온디맨드로 설정했습니다. 4. 크롤러를 선택하고 실행해줍니다. 5. 이제 왼쪽 테이블 탭에서 생

thing-u.tistory.com

 

 

 

반응형
Comments