일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 데이터베이스복사
- AWS Crawler
- 빌드도구
- 데이터 수집
- 스파크
- 문맥교환
- 프로그래머스 큰 수 만들기
- EMR 구조
- 데이터엔지니어링
- 서버간 복사
- 실행엔진
- Spark 최적화
- 프로그래머스힙
- freenom
- 하둡1.0
- Catalyst Optimizer
- Databricks
- ORACLE MSSQL차이
- 하둡2.0
- ORACLE문법
- 런타임데이터영역
- 하둡에코시스템
- kafka 설치
- 하둡
- lazy evaluation
- 데이터파이프라인
- 프로그래머스
- 카프카
- Spark
- 지연연산
- Today
- Total
목록전체 글 (86)
띵유로그

1. EC2 에 접속해서 curl 명령어 실행 Apigateway에서 호출할 url 을 확인 합니다. curl 명령어를 통해 테스트 합니다. curl -d "{\"value\":\"30\",\"type\":\"Tip 3\"}" -H "Content-Type: application/json" -X POST https://url~~~ 정상적 결과는 아래와 같습니다. 2. cloud watch 에서 확인 참고) 배포된 stage에서 미리 cloud watch 로그 추척을 활성화 시켰어야 확인 가능합니다. 로그 그룹 확인 후 API-Gateway-Excution-Logs~~ 클릭합니다. curl 명령어를 통해 POST 요청 1회만 보냈기 때문에 로그는 하나가 남아있습니다. 여기 까지 확인이 완료되면 APIgat..

1. Kinesis 데이터스트림 구성 2. 컨슈머 설정 (Firehorse) Delivery streams 항목 -> Create delivery stream 2-1. Firehorse (consumer 역할)상세 설정사항 설정하는 방법은 쉽다.그냥 source와 destination을 지정해주면 된다. Source : 키네시스 데이터 스트림 Destination : S3 가져올 스트림의 이름을 적어준다. (스트림 이름 : class-stream) 가져올 때 람다 transformation 도 할 수 있으나 여기서는 하지 않았다. (disable) Data 형식도 바꿀 수 있다. bigdata format인 Parquet와 ORC로 바꿀 수 있다. (Avro 와 함께 분산 처리, 저장하는 포맷으로 bin..

이번시간에는 EC2에서 발생시킨 로그를 Api gateway를 통해서 가져온 후 중간에 키네시스를 두고 S3에 저장해 볼 것이다. [Api Gateway 가져오기 매뉴얼(RESTAPI)] 운영 중 관리를 위해 버전에 따라 생성해두면 좋다. 1. 버전관리를 위해 " 작업 -> 리소스 생성 " 을 선택한다. 2. v1라는 이름으로 리소스를 생성하고 POST 메서드를 생성하고 아래와 같이 입력한다. 통합유형 - Kinesis와 연결할 예정이므로 AWS서비스를 선택 AWS 리전 - 서울로 설정 AWS 서비스 - Kinesis와 연결할 예정. HTTP 메서드 : POST 작업 : 로그가 발생 할 때마다 API Gateway에서 Kinesis로 넘길때 약속된 명령어 (대소문자를 구분함) 실행역할 : IAM에서 AP..

wget 명령어를 통해 logstash 를 다운로드 받습니다. logstash 도 링크를 걸어줍니다. 그 후에 .bash_profile을 수정해서 어떤 경로에서도 logstash 명령어를 수행할 수 있도록 경로를 잡아줍니다. 그 후 수정된 값을 적용시키기 위해 source명령어를 실행해줍니다. 2. twitter 연동 먼저 트위터 계정을 만들고 개발자 app 신청을 합니다. https://www.citopes.com/entry/%ED%8A%B8%EC%9C%84%ED%84%B0-%EA%B0%9C%EB%B0%9C%EC%9E%90-%EA%B3%84%EC%A0%95-%EC%B7%A8%EB%93%9D%ED%95%98%EA%B8%B0 트위터 개발자 계정 신청하기 트위터의 API를 이용하기 위해서는 Access To..

트위터에서 발생한 데이터를 kafka로 보내는 과정을 직접 해보려합니다. 먼저 aws에서 t2.medium 으로 인스턴스를 하나 시작했습니다. 인스턴스 시작하는 과정은 포스팅에 포함하지 않았습니다. 1. 자바 설치 카프카는 자바 기반이기 때문에 자바를 설치해주어야 합니다. java 가 잘 설치된걸 확인했다면 이제 wget명령어를 통해 kafka 를 설치해줍니다. 2. kafka 설치 똑같이 명령어를 실행시켰는데 에러가 나면 dlcdn.apache.org 홈페이지에 들어가서 파일 경로가 달라진건아닌지, 오타가 있지는 않는지 확인해봅니다. https://dlcdn.apache.org/kafka/3.0.0/ Index of /kafka/3.0.0 dlcdn.apache.org 그 후 압축을 풀어줍니다. 추가)..
scala repl에서 caseclass 를 정의하려고 하니 다음과 같은 에러가 난다. case class XXXX(변수명1: String, 변수명2: String, is_regex: String) java.lang.NoSuchMethodError: scala.reflect.internal.Definitions$definitions$.classExistentialType(Lscala/reflect/internal/Symbols$Symbol;)Lscala/reflect/internal/Types$Type; at scala.tools.nsc.typechecker.SyntheticMethods$$anonfun$canEqualMethod$1$1.apply(SyntheticMethods.scala:147) at ..

프록시 서버란 클라이언트와 서버 사이에 위치하여 여러가지를 담당하는 서버이다. 프록시 서버가 담당하는 일은 크게 3가지 정도가 있는데, 첫번째는 캐싱이다. 동일 프록시 서버 아래에 있는 클라이언트들이 동일한 요청을 한다면, 굳이 외부 서버에 다시 요청할 필요가 없다. 프록시 서버에 저장해 두고 그 결과를 바로 보내주면 된다. 이 덕분에 응답이 빠르다. 두번째는 보안이다. 클라이언트의 실제 IP로 요청을 하지 않기때문에 어떤 클라이언트에서 요청이 온건지 알 수 없다. 반대로 서버가 여러대 있을 때 서버의 IP 주소를 직접 알 수 없다. 이런 측면 보안상의 이유로 직접 통신할 수 없는 경우에 대신해서 통신을 하게 해준다. 회사 컴퓨터에서 특정 카테고리의 웹페이지는 차단하는 경우에도 프록시 서버가 역할을 하는..

멀티바이트, 유니코드, ANSI, 아스키, utf-8 온갖 용어들이 머릿속에서 정리가 안되어 여기에 정리해둔다. 아스키코드, 멀티바이트, 유니코드, ANSI 이 아이들은 문자 집합이다. 문자 표 라고도 불린다. 이런 애들이다. 문자를 특정 숫자에 대응시켜서 나타내는 체계(표현방법) 라고 볼 수 있다. 그렇다면 utf-8, euc-kr, cp949,ISO 88859 이런 애들은 뭘까? 인코딩이다! 앞서 문자 집합 체계를 정했는데, 이를 컴퓨터로 표현하는 방법을 정하는 방식이다. 여기서 헷갈리는 포인트! 문차체계(ASCII, ANSI등)도 인코딩이 아닌가? -> 따지고보면 문자를 특정 숫자에 대응시켜 부호화했으니, 인코딩이라고 표현할 수 있겠지만 엄밀히 말하면 인코딩한걸 한번 더 인코딩 한것이다. " 문자 ..