1. 정의
- 대용량 데이터 분산저장, 병렬처리 프레임워크 3.0
2. 주요
가. 운영 효율성 측면에서의 하둡 v3.0 특징 (이얀맵)
- Erasure Coding 도입
- Fault Tolerance를 위한 Replication factor 3 이용 -> HDFS 3배 오버해드 발생(2.0기준) -> 1.4배로 축소
- Read Solomon 알고리즘
- FEC(오류 시에 정정할 수 있는 기술/전진 오류 수정/Forward Error Correction)) 기능을 넣어, 원본 데이터를 복원할 수 있는 기술
- YARN Timeline Service v.2 도입
- 기존 타임라인 서비스보다 많은 정보를 확인 가능
- 데이터 쓰기와 읽기 분리, HBase 활용 : 분산처리 가능 확장성과 신뢰성을 확보
- flows와 aggregation : YARN 애플리케이션에 대한 단계별 정보를 확인하는 기능 추가
- MapReduce task-level native optimization
- JNI(Java Native Interface) 적용 30프로 이상 성능 개선
나. 개발 효율성 측면에서의 하둡 v3.0 특징 (자쉘스디)
- Java Version : JDK8
- Shell script Rewrite : 버그 수정, 기존 쉘 스크립트 버전과 호환성 문제 존재 (unix shell api)
- StandBy NameNode : 고가용성을 위해 2개 이상의 네임노드 지원
- Default port 변경 : 리눅스 임시 포트 범위(32768 - 61000) 밖으로 변경
'정보관리기술사 > DB 데이터분석' 카테고리의 다른 글
HDFS(Hadoop Distributed File System) (0) | 2024.01.12 |
---|---|
빅데이터 보안 (0) | 2024.01.12 |
아파치 카프카 (0) | 2024.01.12 |
빅데이터 아키텍처/기술요소 (0) | 2024.01.12 |
분석 모델 평가 방법 (0) | 2024.01.12 |