[HADOOP] 하둡이란?

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

띵유로그

[HADOOP] 하둡이란? 본문

DataEngineering/하둡

[HADOOP] 하둡이란?

띵유 2020. 9. 27. 15:24

하둡은 정형/비정형 데이터를 다루기위한 빅데이터를 다루기 위한 플랫폼이다. 2007년 처음 탄생하여 현재 3.X 버전까지 나와있다.

창시자는 더그 커팅. 검색 엔진에 사용되는 색인기인 인덱스 라이브러리 Lucene를 아파치 오픈소스로 공개했다. 이후 Lucene을 기반으로 Nutch 프로젝트(오픈소스 검색엔진)를 만들고 그 이후 Hadoop을 만들게 된다.

하둡은 분산 파일 시스템을 가지고 그 안의 데이터를 병렬로 처리하는 Map Reduce SW 프레임웍을 가지고있다.
즉, 하둡은 HDFS 와 MapReduce로 만들어진 플랫폼 이라고 할 수 있다.
(HDFS(File System)+Map Reduce(SW Framework)= Hadoop)
하둡 2.0부터 리소스 관리자인 YARN이 추가된다.

HBase : MongoDB와 같은 분산형 데이터 베이스 (NoSQL)
Pig : 스크립트 language
Zookeeper : 분산형 데이터베이스에서의 코디네이터
Mahout : 대용량 데이터를 머신러닝 알고리즘으로 처리하기 위한 구현체
Hive : sql로 하둡의 데이터를 다룰 수 있음
Sqoop : 관계형 데이터베이스와 하둡 간의 데이터를 주고받을 수 있도록 구현된 프레임 워크
HCatalog : 하둡의 데이터 스키마를 하나의 카탈로그 서비스에서 다룰 수 있도록 만들어짐
(여러 플랫폼으로 하둡 데이터에 접근 가능하기때문에 공통 관리 필요)
Mrunit : MapReduce Testing 프레임워크
Oozie : ETL작업 Work flow를 스케쥴링 (airflow가 더 많이 쓰임)

참고블로그
https://gritmind.blog/2020/08/23/spark_start/

'DataEngineering > 하둡' 카테고리의 다른 글

실시간 적재에 사용되는 기술 - HBase, 스톰, 에스퍼... (0)	2020.12.27
[빅데이터] - 하둡과 주키퍼 (대용량 로그파일 적재) (0)	2020.12.15
빅데이터 - 플럼, 카프카 (수집) (0)	2020.12.12

'DataEngineering/하둡' Related Articles

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

띵유로그

띵유로그

[HADOOP] 하둡이란? 본문

[HADOOP] 하둡이란?

'DataEngineering > 하둡' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역