정보관리기술사/DB 데이터분석

Hadoop3.0

기술기술 2024. 1. 12. 12:05

1. 정의

  • 대용량 데이터 분산저장, 병렬처리 프레임워크 3.0

 

2. 주요

가. 운영 효율성 측면에서의 하둡 v3.0 특징 (이얀맵)

  •  Erasure Coding 도입
    • Fault Tolerance를 위한 Replication factor 3 이용 -> HDFS 3배 오버해드 발생(2.0기준) -> 1.4배로 축소
    • Read Solomon 알고리즘
    • FEC(오류 시에 정정할 수 있는 기술/전진 오류 수정/Forward Error Correction)) 기능을 넣어, 원본 데이터를 복원할 수 있는 기술
  •  YARN Timeline Service v.2 도입
    • 기존 타임라인 서비스보다 많은 정보를 확인 가능
    • 데이터 쓰기와 읽기 분리, HBase 활용 : 분산처리 가능 확장성과 신뢰성을 확보
    • flows와 aggregation : YARN 애플리케이션에 대한 단계별 정보를 확인하는 기능 추가
  •  MapReduce task-level native optimization
    • JNI(Java Native Interface) 적용 30프로 이상 성능 개선

 

나. 개발 효율성 측면에서의 하둡 v3.0 특징 (자쉘스디)

  •  Java Version : JDK8
  •  Shell script Rewrite : 버그 수정, 기존 쉘 스크립트 버전과 호환성 문제 존재 (unix shell api)
  •  StandBy NameNode : 고가용성을 위해 2개 이상의 네임노드 지원
  •  Default port 변경 : 리눅스 임시 포트 범위(32768 - 61000) 밖으로 변경

 

'정보관리기술사 > DB 데이터분석' 카테고리의 다른 글

HDFS(Hadoop Distributed File System)  (0) 2024.01.12
빅데이터 보안  (0) 2024.01.12
아파치 카프카  (0) 2024.01.12
빅데이터 아키텍처/기술요소  (0) 2024.01.12
분석 모델 평가 방법  (0) 2024.01.12