반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- ORACLE MSSQL차이
- kafka 설치
- 데이터파이프라인
- 런타임데이터영역
- 빌드도구
- 데이터베이스복사
- 스파크
- 지연연산
- 하둡
- 문맥교환
- 프로그래머스 큰 수 만들기
- 데이터엔지니어링
- freenom
- Databricks
- lazy evaluation
- EMR 구조
- 하둡2.0
- Spark
- ORACLE문법
- 프로그래머스힙
- 프로그래머스
- 데이터 수집
- AWS Crawler
- 하둡1.0
- Catalyst Optimizer
- 하둡에코시스템
- 서버간 복사
- 카프카
- Spark 최적화
- 실행엔진
Archives
- Today
- Total
목록하둡에코시스템 (1)
띵유로그
[HADOOP] 하둡이란?
하둡은 정형/비정형 데이터를 다루기위한 빅데이터를 다루기 위한 플랫폼이다. 2007년 처음 탄생하여 현재 3.X 버전까지 나와있다. 창시자는 더그 커팅. 검색 엔진에 사용되는 색인기인 인덱스 라이브러리 Lucene를 아파치 오픈소스로 공개했다. 이후 Lucene을 기반으로 Nutch 프로젝트(오픈소스 검색엔진)를 만들고 그 이후 Hadoop을 만들게 된다. 하둡은 분산 파일 시스템을 가지고 그 안의 데이터를 병렬로 처리하는 Map Reduce SW 프레임웍을 가지고있다. 즉, 하둡은 HDFS 와 MapReduce로 만들어진 플랫폼 이라고 할 수 있다. (HDFS(File System)+Map Reduce(SW Framework)= Hadoop) 하둡 2.0부터 리소스 관리자인 YARN이 추가된다. HBa..
DataEngineering/하둡
2020. 9. 27. 15:24