일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Databricks
- 프로그래머스 큰 수 만들기
- lazy evaluation
- 하둡
- 데이터베이스복사
- 서버간 복사
- 하둡2.0
- 하둡에코시스템
- 스파크
- Spark 최적화
- 프로그래머스
- freenom
- 하둡1.0
- 프로그래머스힙
- ORACLE MSSQL차이
- 실행엔진
- 런타임데이터영역
- kafka 설치
- ORACLE문법
- 지연연산
- 카프카
- 데이터 수집
- Catalyst Optimizer
- Spark
- 문맥교환
- EMR 구조
- 데이터엔지니어링
- 빌드도구
- AWS Crawler
- 데이터파이프라인
- Today
- Total
목록DataEngineering/하둡 (4)
띵유로그
이 전 글에서는 대용량 로그 파일을 적재하는 기술에 대해 설명했다면, 이번 글에서는 실시간 적재 기능에 대해 설명한다. 실시간으로 발생하는 대규모 메시지성 데이터를 신속히 처리하고 저장하기에는 하둡은 적합하지 않다. (레이턴시가 높기 때문) 대신 Hbase와 같은 NoSQL 데이터 베이스를 사용하면 좋다. 저장할 때에는 제약사항이 적고 조회할 때는 랜덤 액세스가 가능하다. 1. HBase NoSQL데이터 베이스들을 key/ value 구조로 단순화 되어있고 제약사항이 적어 고성능 읽기/쓰기가 가능하다. HBase는 하둡 기반의 칼럼 지향 데이터베이스로 스키마 변경이 자유롭고 여러 분산서버로 샤딩, 복제 기능을 지원한다. - HTable : 칼럼 기반의 데이터 구조를 정의한 테이블. 공통점이 있는 칼럼들의..
이번 글에서는 수집한 데이터를 어디에 어떻게 저장하는지에 대해 적을 것이다. 수집한 데이터의 성격에따라 처리방식과 적재 위치가 달라질 수 있다. 데이터 발생 주기에 따라서 일괄 배치성 데이터인지, 실시간 스트림인지도 다르고, 데이터의 형식에따라서 가공여부나 사전 검증 대상인지도 판단해야한다. 예를들면, 데이터의 성격에따라 간략히 이렇게 저장방식을 다르게 할 수 있다. ex) 대용량 파일 전체를 영구저장할 경우 - 분산파일시스템 대규모 메시지 전체를 영구저장할 경우 - No-SQL 대규모 메시지 전체를 버퍼링 처리할 경우 - MoM 대규모 데이터 일부만 임시저장할 경우 - 캐시 이번 글에서는 이 중에서 대용량 로그 파일을 적재할 때 사용되는 분산파일 시스템인 하둡에 대해서 설명한다. 1. 하둡 [하둡 1...
이러다가는 열심히 공부한 하둡을 다 잊어버릴 것 같아 블로그에 적기로 했다. 위키북스의 실무로 배우는 빅데이터 기술 이라는 책으로 공부했다. 책에서 제공하는 코드를 통해 스마트카 상태정보, 운전자 운행 로그를 수집후에 적재하고 분석하는 과정까지 진행해보았다. 공부한 내용을 수집, 적재, 처리 및 탐색, 분석 및 응용으로 나누어 글을 작성하겠다. 이번 글은 수집이다. 수집과정에서의 각 SW의 사용 용도를 요약하면 아래와 같이 나타낼 수 있다. - 로그 수집 : 플럼 - 로그 이벤트 처리 : 스톰 - 버퍼링 및 트랜잭션 처리 : 카프카 플럼을 통해 로그를 수집하고 스톰으로 로그 이벤트를 처리하는데, 그 사이에서의 안정적인 수집을 위해 버퍼링과 트랜잭션 처리를 하는것이 카프카이다. 1. 플럼 - Source ..
하둡은 정형/비정형 데이터를 다루기위한 빅데이터를 다루기 위한 플랫폼이다. 2007년 처음 탄생하여 현재 3.X 버전까지 나와있다. 창시자는 더그 커팅. 검색 엔진에 사용되는 색인기인 인덱스 라이브러리 Lucene를 아파치 오픈소스로 공개했다. 이후 Lucene을 기반으로 Nutch 프로젝트(오픈소스 검색엔진)를 만들고 그 이후 Hadoop을 만들게 된다. 하둡은 분산 파일 시스템을 가지고 그 안의 데이터를 병렬로 처리하는 Map Reduce SW 프레임웍을 가지고있다. 즉, 하둡은 HDFS 와 MapReduce로 만들어진 플랫폼 이라고 할 수 있다. (HDFS(File System)+Map Reduce(SW Framework)= Hadoop) 하둡 2.0부터 리소스 관리자인 YARN이 추가된다. HBa..