1. 정의
- 저비용의 수백, 수천 노드로 구성된 클러스터를 이용, 기가 또는 테라 바이트의 대용량 데이터 집합을 처리하는 응용 프로그램에 적합하도록 설계한 분산 파일 시스템
- 범용 하드웨어 구성된 클러스터의 파일시스템
2. 구성도 및 구성요소
가. 구성도
나. 구성요소 - 네데세리
- NameNode
- 파일시스템의 Metadata(디렉터리구조, Access 권한 등) 관리 서버
- 블록에 대한 배치정보를 관리, 특정 파일이 어떻게 블록으로 분할되어 어느 DataNode 에 보관 유지되고 있는지를 관리
- 네임노드는 디렉터리 구조, 파일목록 등 데이터 노드에 저장된 모든 데이 터에 대한 정보를 가지고 있음
- DataNode
- 실제 데이터를 저장 유지하는 서버, Data Node 간에는 데이터 복제를 통해 데이터의 신뢰성 유지함
- Secondary NameNode
- Name Node 의 Metadata 로드가 실패 시 Backup Node 로 사용
- Name Node 에서 Secondary Name Node 로 지속적 copy
- Replication
- Datanode간 정보 복제
- 성능향상 및 장애시 지속적 서비스 제공
- 데이터노드에는 실제 물리적인 데이터가 저장되고 64MB 또는 128MB 블록 사이즈로 관리
- 데이터노드의 블록은 모두 3개 이상의 복제본이 각 노드에 복사 및 저장되며, 만약 파일에 문제가 발생하면 즉시 복제본으로 대체돼 서비스가 중단되지 않는 이점이 있다
3. 절차
'정보관리기술사 > DB 데이터분석' 카테고리의 다른 글
Hadoop3.0 (0) | 2024.01.12 |
---|---|
빅데이터 보안 (0) | 2024.01.12 |
아파치 카프카 (0) | 2024.01.12 |
빅데이터 아키텍처/기술요소 (0) | 2024.01.12 |
분석 모델 평가 방법 (0) | 2024.01.12 |