일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 데이터엔지니어링
- EMR 구조
- Databricks
- 실행엔진
- 지연연산
- 하둡1.0
- 하둡에코시스템
- lazy evaluation
- 서버간 복사
- 런타임데이터영역
- 데이터 수집
- 프로그래머스 큰 수 만들기
- 스파크
- 프로그래머스
- AWS Crawler
- 하둡2.0
- Spark
- ORACLE MSSQL차이
- 하둡
- 데이터파이프라인
- ORACLE문법
- kafka 설치
- 빌드도구
- 카프카
- 문맥교환
- 데이터베이스복사
- Catalyst Optimizer
- Spark 최적화
- 프로그래머스힙
- freenom
- Today
- Total
목록분류 전체보기 (86)
띵유로그
텍스트 분석할 때는 아래와 같은 순서로 분석한다. " 문장 -> 단어 -> 키워드 -> 필터링 -> 집계 -> 시각화 " 추가 ) 워드 클라우드를 특정한 모양으로 그리고 싶을 때 다빈도 단어를 그래프로 출력하고 싶을 때
이번 글에서는 수집한 데이터를 어디에 어떻게 저장하는지에 대해 적을 것이다. 수집한 데이터의 성격에따라 처리방식과 적재 위치가 달라질 수 있다. 데이터 발생 주기에 따라서 일괄 배치성 데이터인지, 실시간 스트림인지도 다르고, 데이터의 형식에따라서 가공여부나 사전 검증 대상인지도 판단해야한다. 예를들면, 데이터의 성격에따라 간략히 이렇게 저장방식을 다르게 할 수 있다. ex) 대용량 파일 전체를 영구저장할 경우 - 분산파일시스템 대규모 메시지 전체를 영구저장할 경우 - No-SQL 대규모 메시지 전체를 버퍼링 처리할 경우 - MoM 대규모 데이터 일부만 임시저장할 경우 - 캐시 이번 글에서는 이 중에서 대용량 로그 파일을 적재할 때 사용되는 분산파일 시스템인 하둡에 대해서 설명한다. 1. 하둡 [하둡 1...
import java.util.*; class Solution { public int solution(int N, int number) { int answer = 0; HashSet[] set = new HashSet[8]; int num=0; for (int i = 0 ;i < 8;i++){ num=1+10*num; set[i]=new HashSet(); set[i].add(num*N); } for(int to=1;to
def getParent(idx):#제일 부모를 반환 if idx==parent[idx]: return idx else :return getParent(parent[idx]) def union(f,s): f=getParent(f) s=getParent(s) if f 지금 연결하는 노드가 다른것과도 연결되어있을 수 있으므로, 지금 연결하려는 노드의 제일 상위 부모를 찾아 부모의 부모를 갱신해줘야함 2. 사이클이 있는지 확인할 때 : parent 배열(부모배열)만 조회하면 될 것이라고 생각했으나 ㄴㄴ -> 1번과정에 의해 갱신될 때 제일 상위의 부모의 부모만 바뀌게 되므로 사이에 있던 parent 배열만 보면 사이에있는 노드들은 부모의 부모가 생겼으나 그 사실을 모른채 자신의 부모를 parent 배열에 담고..
font_manager를 import한 후 폰트 경로를 불러온다. 이름을 불러와 matplotlib.rc함수로 지정한다.
이러다가는 열심히 공부한 하둡을 다 잊어버릴 것 같아 블로그에 적기로 했다. 위키북스의 실무로 배우는 빅데이터 기술 이라는 책으로 공부했다. 책에서 제공하는 코드를 통해 스마트카 상태정보, 운전자 운행 로그를 수집후에 적재하고 분석하는 과정까지 진행해보았다. 공부한 내용을 수집, 적재, 처리 및 탐색, 분석 및 응용으로 나누어 글을 작성하겠다. 이번 글은 수집이다. 수집과정에서의 각 SW의 사용 용도를 요약하면 아래와 같이 나타낼 수 있다. - 로그 수집 : 플럼 - 로그 이벤트 처리 : 스톰 - 버퍼링 및 트랜잭션 처리 : 카프카 플럼을 통해 로그를 수집하고 스톰으로 로그 이벤트를 처리하는데, 그 사이에서의 안정적인 수집을 위해 버퍼링과 트랜잭션 처리를 하는것이 카프카이다. 1. 플럼 - Source ..
Databricks란? Spark실행환경을 제공하는 클라우드 서비스이다. 통합 분석 플랫폼으로, 사용자가 한곳에서 모든 분석을 다 할 수 있도록 해준다. 아래 내용들을 모두 지원 - reports - dashboards - ETL 작업 실행 (Extract, Transform, Load) - 머신러닝, 스트림 작업 - 아파치 Spark보다 더 optimized. - Databricks 서버와 실시간으로 interaction Spark는 여러 분산된 서버들간의 연결을 해야하기 때문에 설치가 어렵다. Databricks는 이러한 어려움을 없애고 analytics에만 집중할 수 있도록 해준다. invite 기능이 있어서 여러명이 함께 작성 할 수도 있다. 1. 오른쪽 상단 TRY Databricks 버튼을 눌..
Spark 의 프로그래밍 API에는 고수준 API(구조적 API)와 저수준 API가 있습니다. 고수준 API(구조적 API) DataFrame SQL Dataset 저수준 API RDD 이번 포스팅에서는 고수준 API인 DataFrame에 대해 알아보고, RDD와 어떤점이 다른지 적어보려한다. 짧게 말하면 DataFrame은 API가 간결하면서 쿼리 최적화를 자동으로 해주기때문에 RDD보다 성능이 더 좋다. 보통 물리적으로 데이터 배치를 세밀하게 제어해야하는 상황에서 RDD를 사용한다. DataFrame은 RDD의 특징을 상속받고있기때문에 RDD에 대한 이해가 선행되어야한다. RDD란? RDD (Resilient Distributed Database) RDD란 오류에 강한 분산 데이터베이스이다. 만약, ..