일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 데이터파이프라인
- 프로그래머스힙
- 실행엔진
- 하둡1.0
- 카프카
- ORACLE문법
- kafka 설치
- 런타임데이터영역
- Spark 최적화
- 프로그래머스
- lazy evaluation
- Catalyst Optimizer
- ORACLE MSSQL차이
- 지연연산
- 하둡에코시스템
- 스파크
- 하둡
- Databricks
- 하둡2.0
- 데이터 수집
- 프로그래머스 큰 수 만들기
- 빌드도구
- 데이터엔지니어링
- 서버간 복사
- 데이터베이스복사
- AWS Crawler
- 문맥교환
- freenom
- EMR 구조
- Spark
- Today
- Total
목록분류 전체보기 (86)
띵유로그
RDD에 대해서는 지난 글에서도 간단히 살펴보았다. https://thing-u.tistory.com/25?category=909947 [SPARK] SPARK DATAFRAME이란 - RDD와 어떻게 다른가? Spark 의 프로그래밍 API에는 고수준 API(구조적 API)와 저수준 API가 있습니다. 고수준 API(구조적 API) DataFrame SQL Dataset 저수준 API RDD 이번 포스팅에서는 고수준 API인 DataFrame에 대해 알아보고, RDD.. thing-u.tistory.com 이번 글에서는 RDD의 함수와 사용 방법을 알아보려한다. map, flatMap, filter, reduce등의 고차원 함수를 제공한다. 다음은 RDD클래스를 간단히 나타내본 코드이다. abstrac..
PM, AM으로 표현된 시간을 24시간 표현법으로 바꾸는 문제다. String -> 숫자, 숫자 -> String으로 바꾸는것만 처리하면 어려울것은 딱히 없었다. 다만 01 시 일 경우 1시가 아닌 01시로 표현해야한다는 점만 주의하면 된다. * character 1을 숫자 1로 바꾸기 : s.charAt(0)-'0' * substring(f,t) : f은 포함, t는 미포함
/etc/passwd 파일을 열면 아래와 같이 여러명의 사용자가 보인다. 각 행은 다음과 같다. 사용자 이름 : 암호 : 사용자 ID : 사용자가 소속된 그룹 ID : 전체이름 : 홈디렉토리 : 기본셸 암호에 x로 표시되어있는데, /etc/shadow 파일에 비밀번호가 지정되어있다. /etc/group 파일을 확인하면 아래와 같이 확인할 수 있다. 그룹 이름 : 비밀번호 : 그룹id : 그룹에 속한 사용자 이름 여기서 마지막은 빈 값으로 나타나는데, 사용자가 속해있으나, 표현되지 않은것이다. root를 예로들어보자. root 사용자는 /etc/passwd 파일을 확인했을 때 group root (id 0)에 속한다고 하였고 /etc/group에서 해당 그룹을 확인하면 기대한 바와 같이 root (id 0..
[SSH 에서 사용하기 위한 공개키 생성] 1) ssh-keygen -t rsa 명령어를 실행하면 아래와 같이 저장한 파일을 입력하라고하는데, 그냥 엔터를 치면 기본경로로 저장된다. 2) 비밀번호를 입력. 3) 설정경로에 가면 공개키, 비밀키가 생성된걸 볼 수 있다. [SSH 설정] 1. 아래 명령어를 통해 ssh 데몬을 시작한다. 2. 잘 동작중인지 확인 3. ssh 포트(22)동작여부 확인 4. ssh-copy-id 명령어를 통해 서버(네임노드)의 공개키를 타겟서버(데이터노드)로 전송 ssh-copy-id -i /home/hadoop/.ssh/id_rsa.pub 계정명@대상서버 대상서버의 비밀번호를 물으면 입력하면 된다. 아래와 같이 메세지가 뜨면 성공. (최초에는 비밀번호 물어봄) 5. ssh 서버..
jdk 를 설치하고 압축 해제 후 심볼릭 링크까지 설정했다. ln -s jdk-15.0.1 java 이후 /etc/profile에 자바 경로 환경변수를 등록한다. 생성한 심볼릭 링크의 경로를 지정한다. source /etc/profile 명령어를 이용해서 변경된 profile을 시스템에 적용한 후 자바 버전을 확인한다.
shutdown -P now : 지금 종료 shutdown -P +10 : 10분 후 종료 shutdown -r 22:00 : 오후 10시에 재부팅 shutdown -c : 예약한 셧다운 취소 shutdown -k +15 : 현재 접속중인 사용자에게 15분 후 종료된다는 메시지를 보내지만 실제로 종료되지는 않음 런레벨 lib/systemd/system 경로에서 ls -l runlevel?.target 명령어를 통해 런레벨을 확인할 수 있다. 런레벨은 init 명령어 뒤에 숫자로 붙는데, init 0 을 실행하면 시스템이 종료되고, init 6을 실행하면 시스템이 리부팅 된다. 즉, init 0 명령어를 실행하면 '런레벨 0으로 시스템을 전환하라'는 의미이며 런레벨 0번은 종료모드를 의미하므로 지금 즉시 ..
1. su - 명령어를 통해 root로 로그인 한다. 2. /etc/gdm/custom.conf 에 다음과 같이 수정한다.
이 전 글에서는 대용량 로그 파일을 적재하는 기술에 대해 설명했다면, 이번 글에서는 실시간 적재 기능에 대해 설명한다. 실시간으로 발생하는 대규모 메시지성 데이터를 신속히 처리하고 저장하기에는 하둡은 적합하지 않다. (레이턴시가 높기 때문) 대신 Hbase와 같은 NoSQL 데이터 베이스를 사용하면 좋다. 저장할 때에는 제약사항이 적고 조회할 때는 랜덤 액세스가 가능하다. 1. HBase NoSQL데이터 베이스들을 key/ value 구조로 단순화 되어있고 제약사항이 적어 고성능 읽기/쓰기가 가능하다. HBase는 하둡 기반의 칼럼 지향 데이터베이스로 스키마 변경이 자유롭고 여러 분산서버로 샤딩, 복제 기능을 지원한다. - HTable : 칼럼 기반의 데이터 구조를 정의한 테이블. 공통점이 있는 칼럼들의..