반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 런타임데이터영역
- 스파크
- freenom
- Catalyst Optimizer
- Spark 최적화
- AWS Crawler
- 프로그래머스 큰 수 만들기
- Databricks
- EMR 구조
- ORACLE MSSQL차이
- 데이터베이스복사
- 하둡2.0
- 서버간 복사
- 문맥교환
- lazy evaluation
- Spark
- 프로그래머스힙
- 카프카
- ORACLE문법
- 하둡에코시스템
- 데이터 수집
- 하둡
- 지연연산
- 데이터엔지니어링
- 빌드도구
- 실행엔진
- kafka 설치
- 프로그래머스
- 데이터파이프라인
- 하둡1.0
Archives
- Today
- Total
띵유로그
[데이터파이프라인] AWS Glue Crawler 시작하기 본문
반응형
1. 데이터베이스를 만들어줍니다.
2. 크롤러 탭에서 크롤러를 추가해줍니다.
3. 상세 설정
일정은 온디맨드로 설정했습니다.
4. 크롤러를 선택하고 실행해줍니다.
5. 이제 왼쪽 테이블 탭에서 생성된 테이블을 확인합니다.
6. 테이블을 직접 클릭해서 상세정보를 확인합니다.
테이블의 값이 변경될 떄마다 오른쪽 상단에 버전으로 관리됩니다. 스키마 편집도 가능합니다.
7. cralwer와는 무관하지만, athena를 통해 쿼리를 실행해보겠습니다.
서버리스이기 때문에 데이터 쿼리 시작 을 눌러 바로 사용할 수 있습니다. 비용도 로드되는 양에 따라 부과됩니다.
쓸데없이 많은 데이터를 읽지 않도록 주의합니다. 참고로 athena 내부엔진은 Presto로 되어있습니다.
* 첫 번째 쿼리를 실행하기 전에 Amazon S3에서 쿼리 결과 위치를 설정해야합니다 라는 팝업이 뜨면 팝업 옆의 보기설정 클릭 후 S3 경로를 설정해줍니다. 이 경로로 쿼리 결과가 저장됩니다.
반응형
'DataEngineering' 카테고리의 다른 글
[데이터파이프라인] Presto (0) | 2022.02.28 |
---|---|
[데이터파이프라인] Glue (0) | 2022.02.22 |
[데이터파이프라인] EMR에서 Spark 모니터링(Ganglia) (0) | 2022.02.12 |
[데이터 분석 파이프라인] EMR 구조와 실행 (0) | 2022.02.12 |
[데이터파이프라인-2] Api gateway, Kinesis 테스트 (0) | 2022.02.06 |
Comments