HDFS(Hadoop Distributed File System)

정보관리기술사/DB 데이터분석

기술기술 2024. 1. 12. 11:54

1. 정의

저비용의 수백, 수천 노드로 구성된 클러스터를 이용, 기가 또는 테라 바이트의 대용량 데이터 집합을 처리하는 응용 프로그램에 적합하도록 설계한 분산 파일 시스템
범용 하드웨어 구성된 클러스터의 파일시스템

NameNode
- 파일시스템의 Metadata(디렉터리구조, Access 권한 등) 관리 서버
- 블록에 대한 배치정보를 관리, 특정 파일이 어떻게 블록으로 분할되어 어느 DataNode 에 보관 유지되고 있는지를 관리
- 네임노드는 디렉터리 구조, 파일목록 등 데이터 노드에 저장된 모든 데이 터에 대한 정보를 가지고 있음
DataNode
- 실제 데이터를 저장 유지하는 서버, Data Node 간에는 데이터 복제를 통해 데이터의 신뢰성 유지함
Secondary NameNode
- Name Node 의 Metadata 로드가 실패 시 Backup Node 로 사용
- Name Node 에서 Secondary Name Node 로 지속적 copy
Replication
- Datanode간 정보 복제
- 성능향상 및 장애시 지속적 서비스 제공

- 데이터노드에는 실제 물리적인 데이터가 저장되고 64MB 또는 128MB 블록 사이즈로 관리

- 데이터노드의 블록은 모두 3개 이상의 복제본이 각 노드에 복사 및 저장되며, 만약 파일에 문제가 발생하면 즉시 복제본으로 대체돼 서비스가 중단되지 않는 이점이 있다

기술기술

오류제어, SDLC, TEST, 혼잡제어, Cloud, SDX, 프로젝트 관리, 비지도, 가상화, csap, 인더스트리 4.0, 암호화, XaaS, ISO 26262, 지도학습, 암호학적 해시함수, UML, agile, 블록체인, RNN,