정보관리기술사/DB 데이터분석

HDFS(Hadoop Distributed File System)

기술기술 2024. 1. 12. 11:54

1. 정의

  • 저비용의 수백, 수천 노드로 구성된 클러스터를 이용, 기가 또는 테라 바이트의 대용량 데이터 집합을 처리하는 응용 프로그램에 적합하도록 설계한 분산 파일 시스템
  • 범용 하드웨어 구성된 클러스터의 파일시스템

 

2. 구성도 및 구성요소

가. 구성도

나. 구성요소  -  네데세리

  • NameNode
    • 파일시스템의 Metadata(디렉터리구조, Access 권한 등) 관리 서버
    • 블록에 대한 배치정보를 관리, 특정 파일이 어떻게 블록으로 분할되어 어느 DataNode 에 보관 유지되고 있는지를 관리
    • 네임노드는 디렉터리 구조, 파일목록 등 데이터 노드에 저장된 모든 데이 터에 대한 정보를 가지고 있음
  • DataNode
    • 실제 데이터를 저장 유지하는 서버, Data Node 간에는 데이터 복제를 통해 데이터의 신뢰성 유지함
  • Secondary NameNode
    • Name Node 의 Metadata 로드가 실패 시 Backup Node 로 사용
    • Name Node 에서 Secondary Name Node 로 지속적 copy
  • Replication
    • Datanode간 정보 복제
    • 성능향상 및 장애시 지속적 서비스 제공

- 데이터노드에는 실제 물리적인 데이터가 저장되고 64MB 또는 128MB 블록 사이즈로 관리

- 데이터노드의 블록은 모두 3개 이상의 복제본이 각 노드에 복사 및 저장되며, 만약 파일에 문제가 발생하면 즉시 복제본으로 대체돼 서비스가 중단되지 않는 이점이 있다

 

3. 절차

'정보관리기술사 > DB 데이터분석' 카테고리의 다른 글

Hadoop3.0  (0) 2024.01.12
빅데이터 보안  (0) 2024.01.12
아파치 카프카  (0) 2024.01.12
빅데이터 아키텍처/기술요소  (0) 2024.01.12
분석 모델 평가 방법  (0) 2024.01.12