일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 스파크
- Databricks
- 카프카
- 프로그래머스 큰 수 만들기
- 빌드도구
- 프로그래머스
- 데이터파이프라인
- Catalyst Optimizer
- Spark
- 런타임데이터영역
- 문맥교환
- lazy evaluation
- ORACLE MSSQL차이
- EMR 구조
- 프로그래머스힙
- 지연연산
- AWS Crawler
- 하둡
- 하둡2.0
- 하둡에코시스템
- 데이터베이스복사
- 실행엔진
- ORACLE문법
- freenom
- 서버간 복사
- 데이터엔지니어링
- Spark 최적화
- kafka 설치
- 데이터 수집
- 하둡1.0
- Today
- Total
목록분류 전체보기 (86)
띵유로그
Spark 는 하둡 에코시스템 중 분산데이터 처리기에 해당한다. 분산 데이터 처리기는 Spark, Tez, MapReduce등 많은 것이 있지만, Spark만의 장점이 무엇인지 알아보자. 1. 다양한 언어 지원 & 쉬운 프로그래밍 Spark는 Scala, java, python, R등 다양한 언어를 지원한다. (Spark내부적으로는 Scala로 동작한다.) live stream 데이터도 처리할 수 있다. 또 대화형작업이나 기계학습과 같은 반복적인 데이터 플로우를 쉽게 프로그래밍할 수 있다. * 참고로 python으로 작성하면 저수준 API인 RDD작성시 성능저하가 발생할 수 있다. JVM언어로 변환하는 과정에서 비용이 많이 발생하기 때문.. 고수준 API(Dataset, DataFrame등 )만사용하면 ..
텐서플로우를 공부하다보니 이런 오류가 뜬다. 구글링을 해보니 텐서플로우 2.X 이상부터는 세션을 만들고 run 하는 과정이 생략된다고 한다. 나의 텐서플로우 버전은
1. 패키지 설치, 관리 conda install 패키지명 2. 패키지명 조회 conda list 3. 클린 (인덱스캐시, 잠긴 파일, 사용하지 않는 패키지 삭제)
1. 가상환경 만들기 test 라는 이름으로 python 3.8의 가상환경을 만든다. 2. 가상환경 list 확인 3. 가상환경 actiave/ deactivate activate (가상환경 이름) conda deactivate 4. 가상환경 삭제 conda remove --name (가상환경 이름) -all
하둡은 정형/비정형 데이터를 다루기위한 빅데이터를 다루기 위한 플랫폼이다. 2007년 처음 탄생하여 현재 3.X 버전까지 나와있다. 창시자는 더그 커팅. 검색 엔진에 사용되는 색인기인 인덱스 라이브러리 Lucene를 아파치 오픈소스로 공개했다. 이후 Lucene을 기반으로 Nutch 프로젝트(오픈소스 검색엔진)를 만들고 그 이후 Hadoop을 만들게 된다. 하둡은 분산 파일 시스템을 가지고 그 안의 데이터를 병렬로 처리하는 Map Reduce SW 프레임웍을 가지고있다. 즉, 하둡은 HDFS 와 MapReduce로 만들어진 플랫폼 이라고 할 수 있다. (HDFS(File System)+Map Reduce(SW Framework)= Hadoop) 하둡 2.0부터 리소스 관리자인 YARN이 추가된다. HBa..
문제 어떤 숫자에서 k개의 수를 제거했을 때 얻을 수 있는 가장 큰 숫자를 구하려 합니다. 예를 들어, 숫자 1924에서 수 두 개를 제거하면 [19, 12, 14, 92, 94, 24] 를 만들 수 있습니다. 이 중 가장 큰 숫자는 94 입니다. 문자열 형식으로 숫자 number와 제거할 수의 개수 k가 solution 함수의 매개변수로 주어집니다. number에서 k 개의 수를 제거했을 때 만들 수 있는 수 중 가장 큰 숫자를 문자열 형태로 return 하도록 solution 함수를 완성하세요. 제한 조건 number는 1자리 이상, 1,000,000자리 이하인 숫자입니다. k는 1 이상 number의 자릿수 미만인 자연수입니다. 입출력 예 numberkreturn 1924 2 94 1231234 3..
최소 넓이는 9 이므로 세로는 최소=3 이다. 따라서 i=3부터 세로의 길이를 찾아서 탐색해나간다. 조건 1 : width를 i 로 나눴을떄 나누어 떨어져야함 조건 2 : (i-2) * (width/i-2) = yellow 여야 함 내 풀이 def solution(brown, yellow): answer = [] import math width=brown+yellow i=3 while i
내 풀이 def is_prime(num): if num==0 or num==1: return False for i in range(num-2): if num%(i+2)==0: return False return True def solution(numbers): answer = 0 import itertools num=[] for i in range(len(numbers)): num.extend(list(map(''.join, itertools.permutations(numbers,i+1)))) num=[int(i) for i in num] num=list(set(num)) print(num) for i in num: if is_prime(i): answer+=1 return answer 더 효율적인 풀이..