일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Catalyst Optimizer
- ORACLE MSSQL차이
- 지연연산
- AWS Crawler
- Spark
- 실행엔진
- 카프카
- 하둡
- 프로그래머스힙
- 데이터 수집
- 서버간 복사
- 하둡1.0
- 문맥교환
- ORACLE문법
- 스파크
- 데이터엔지니어링
- lazy evaluation
- 빌드도구
- Databricks
- EMR 구조
- 데이터베이스복사
- 하둡에코시스템
- kafka 설치
- 런타임데이터영역
- Spark 최적화
- freenom
- 프로그래머스
- 프로그래머스 큰 수 만들기
- 하둡2.0
- 데이터파이프라인
- Today
- Total
목록DataEngineering (31)
띵유로그
1. 데이터베이스를 만들어줍니다. 2. 크롤러 탭에서 크롤러를 추가해줍니다. 3. 상세 설정 일정은 온디맨드로 설정했습니다. 4. 크롤러를 선택하고 실행해줍니다. 5. 이제 왼쪽 테이블 탭에서 생성된 테이블을 확인합니다. 6. 테이블을 직접 클릭해서 상세정보를 확인합니다. 테이블의 값이 변경될 떄마다 오른쪽 상단에 버전으로 관리됩니다. 스키마 편집도 가능합니다. 7. cralwer와는 무관하지만, athena를 통해 쿼리를 실행해보겠습니다. 서버리스이기 때문에 데이터 쿼리 시작 을 눌러 바로 사용할 수 있습니다. 비용도 로드되는 양에 따라 부과됩니다. 쓸데없이 많은 데이터를 읽지 않도록 주의합니다. 참고로 athena 내부엔진은 Presto로 되어있습니다. * 첫 번째 쿼리를 실행하기 전에 Amazon ..
이번시간에는 Spark 모니터링 어플리케이션인 ganglia를 확인해보겠습니다. 처음 ganglia 웹서버 주소를 복사해서 접근시도하면 실패메세지가 뜹니다. /etc/httpd/conf.d/ganglia.conf의 Order dendy 로 되어있는 부분을 allow로 바꾸고 웹서버를 재가동해야합니다. 또는 아래 shell파일을 S3에 저장해놓고 EMR 클러스트에 단계를 추가합니다. if [ -f "/etc/httpd/conf.d/ganglia.conf" ]; then echo "Setting up ganglia on master node" sudo sed -i 's/Order deny,allow/#Order deny,allow/g' /etc/httpd/conf.d/ganglia.conf sudo serv..
EMR은 AWS에서 아파치 하둡, 스파크와 같은 빅데이터 프레임워크를 쉽게 실행할 수 있도록 관리해주는 클러스터 플랫폼입니다. 클러스터 플랫폼이다보니 scale- in/out이 쉽습니다. 아래 그림처럼 Master Node와 core node, task node로 구성되어있습니다. 1. Master Node Master Node는 이름에서 유추할 수 있듯이 클러스터를 관리합니다. 노드들 사이에 작업을 분배하고 정상종료되었는지 모니터링합니다. 2. Core Node와 TaskNode Core Node와 Task Node는 Master의 Worker노드입니다. 둘 다 하는 일은 비슷하지만, Core Node는 HDFS(디스크)를 가지고 있지만 Task Node는 HDFS가 없이 컴퓨팅만을 담당합니다. 따라서..
1. EC2 에 접속해서 curl 명령어 실행 Apigateway에서 호출할 url 을 확인 합니다. curl 명령어를 통해 테스트 합니다. curl -d "{\"value\":\"30\",\"type\":\"Tip 3\"}" -H "Content-Type: application/json" -X POST https://url~~~ 정상적 결과는 아래와 같습니다. 2. cloud watch 에서 확인 참고) 배포된 stage에서 미리 cloud watch 로그 추척을 활성화 시켰어야 확인 가능합니다. 로그 그룹 확인 후 API-Gateway-Excution-Logs~~ 클릭합니다. curl 명령어를 통해 POST 요청 1회만 보냈기 때문에 로그는 하나가 남아있습니다. 여기 까지 확인이 완료되면 APIgat..
1. Kinesis 데이터스트림 구성 2. 컨슈머 설정 (Firehorse) Delivery streams 항목 -> Create delivery stream 2-1. Firehorse (consumer 역할)상세 설정사항 설정하는 방법은 쉽다.그냥 source와 destination을 지정해주면 된다. Source : 키네시스 데이터 스트림 Destination : S3 가져올 스트림의 이름을 적어준다. (스트림 이름 : class-stream) 가져올 때 람다 transformation 도 할 수 있으나 여기서는 하지 않았다. (disable) Data 형식도 바꿀 수 있다. bigdata format인 Parquet와 ORC로 바꿀 수 있다. (Avro 와 함께 분산 처리, 저장하는 포맷으로 bin..
이번시간에는 EC2에서 발생시킨 로그를 Api gateway를 통해서 가져온 후 중간에 키네시스를 두고 S3에 저장해 볼 것이다. [Api Gateway 가져오기 매뉴얼(RESTAPI)] 운영 중 관리를 위해 버전에 따라 생성해두면 좋다. 1. 버전관리를 위해 " 작업 -> 리소스 생성 " 을 선택한다. 2. v1라는 이름으로 리소스를 생성하고 POST 메서드를 생성하고 아래와 같이 입력한다. 통합유형 - Kinesis와 연결할 예정이므로 AWS서비스를 선택 AWS 리전 - 서울로 설정 AWS 서비스 - Kinesis와 연결할 예정. HTTP 메서드 : POST 작업 : 로그가 발생 할 때마다 API Gateway에서 Kinesis로 넘길때 약속된 명령어 (대소문자를 구분함) 실행역할 : IAM에서 AP..
wget 명령어를 통해 logstash 를 다운로드 받습니다. logstash 도 링크를 걸어줍니다. 그 후에 .bash_profile을 수정해서 어떤 경로에서도 logstash 명령어를 수행할 수 있도록 경로를 잡아줍니다. 그 후 수정된 값을 적용시키기 위해 source명령어를 실행해줍니다. 2. twitter 연동 먼저 트위터 계정을 만들고 개발자 app 신청을 합니다. https://www.citopes.com/entry/%ED%8A%B8%EC%9C%84%ED%84%B0-%EA%B0%9C%EB%B0%9C%EC%9E%90-%EA%B3%84%EC%A0%95-%EC%B7%A8%EB%93%9D%ED%95%98%EA%B8%B0 트위터 개발자 계정 신청하기 트위터의 API를 이용하기 위해서는 Access To..
트위터에서 발생한 데이터를 kafka로 보내는 과정을 직접 해보려합니다. 먼저 aws에서 t2.medium 으로 인스턴스를 하나 시작했습니다. 인스턴스 시작하는 과정은 포스팅에 포함하지 않았습니다. 1. 자바 설치 카프카는 자바 기반이기 때문에 자바를 설치해주어야 합니다. java 가 잘 설치된걸 확인했다면 이제 wget명령어를 통해 kafka 를 설치해줍니다. 2. kafka 설치 똑같이 명령어를 실행시켰는데 에러가 나면 dlcdn.apache.org 홈페이지에 들어가서 파일 경로가 달라진건아닌지, 오타가 있지는 않는지 확인해봅니다. https://dlcdn.apache.org/kafka/3.0.0/ Index of /kafka/3.0.0 dlcdn.apache.org 그 후 압축을 풀어줍니다. 추가)..