정보관리기술사/DB 데이터분석 21

Hadoop3.0

1. 정의 대용량 데이터 분산저장, 병렬처리 프레임워크 3.0 2. 주요 가. 운영 효율성 측면에서의 하둡 v3.0 특징 (이얀맵) Erasure Coding 도입 Fault Tolerance를 위한 Replication factor 3 이용 -> HDFS 3배 오버해드 발생(2.0기준) -> 1.4배로 축소 Read Solomon 알고리즘 FEC(오류 시에 정정할 수 있는 기술/전진 오류 수정/Forward Error Correction)) 기능을 넣어, 원본 데이터를 복원할 수 있는 기술 YARN Timeline Service v.2 도입 기존 타임라인 서비스보다 많은 정보를 확인 가능 데이터 쓰기와 읽기 분리, HBase 활용 : 분산처리 가능 확장성과 신뢰성을 확보 flows와 aggregatio..

HDFS(Hadoop Distributed File System)

1. 정의 저비용의 수백, 수천 노드로 구성된 클러스터를 이용, 기가 또는 테라 바이트의 대용량 데이터 집합을 처리하는 응용 프로그램에 적합하도록 설계한 분산 파일 시스템 범용 하드웨어 구성된 클러스터의 파일시스템 2. 구성도 및 구성요소 가. 구성도 나. 구성요소 - 네데세리 NameNode 파일시스템의 Metadata(디렉터리구조, Access 권한 등) 관리 서버 블록에 대한 배치정보를 관리, 특정 파일이 어떻게 블록으로 분할되어 어느 DataNode 에 보관 유지되고 있는지를 관리 네임노드는 디렉터리 구조, 파일목록 등 데이터 노드에 저장된 모든 데이 터에 대한 정보를 가지고 있음 DataNode 실제 데이터를 저장 유지하는 서버, Data Node 간에는 데이터 복제를 통해 데이터의 신뢰성 유지..

빅데이터 보안

1. 정의 기업 환경에서 빅데이터 적용하기 위한 보안, 개인정보보호기술 적용방안, 비식별화조치 저장 : 개인정보등 ( 처리 : PPDM 정책적으로 ) 분석 : 분석기술 이용한 응용 보안 이슈 시스템 : 하둡보안 (접근제어, 인증) 2. 보안 위협 분류 및 대응방향 가. 보안 위협 분류 - 유도가 오법기 유출 : 사용자 조작 오류, 웹앱, 부적절한 운영 도청 및 가로채기 : Sniffing, Tempering, 사회공학, MITM 비도덕적 행위 혹은 오남용 : 신원도용, DoS, 악성코드, 위조 인증서, 권한 남용 법률위반 : 지적재산권, 개인정보, Compliance 기능장애 : 기능 숙련성 부족 조직/인력-정보탈취, 권한상승 나. 대응방향 관리적 - 디지털 소유권(잊혀질 권리,The right to b..

아파치 카프카

1. 정의 데이터 스트림을 실시간으로 관리하기 위한 비동기 메시징 큐 기능을 제공하는 시스템 pub/sub 메시지 큐: 펍/섭 모델 스트리밍 데이터를 처리 클러스터를 Scale out해야 할 경우 수십 대의 Broker(:Server node) 확장 가능 2. 구성도 및 구성요소 가. 구성도 나. 구성요소 메시지 구성요소 - topic(레코드 저장단위), partition(round robin, 기반) 파이프라인 - Publisher, Broker, Consumer topic, producer

빅데이터 아키텍처/기술요소

1. 정의 빅데이터 수집, 저장, 처리, 분석, 표현 위해 시스템 공통 기능을 컴포넌트화 한 빅데이터 참조 아키텍처 특징) 상호운영성, 이식성, 재사용성, 확장성 2. 구성도 및 구성요소 - 소스배메스스리오 데이터 원본 데이터 스토리지 일괄 처리 실시간 메시지 수집 스트림 처리 분석 데이터 저장소 분석 및 보고 오케스트레이션

분석 모델 평가 방법

1. 정의 데이터마이닝을 통해 생성된 모델의 에러율 예측 및 모델 타당성을 평가하는 검증 방법 2. 평가기법 가. 정확도 기법 (Train-Validation) Traing Set, Validation Set, Test Set ( 60% 20% 20% ) 나. 재 샘플링 기법 (Cross Validation, Bootstrap) [cross validation] : 성능 검증용(Validation Set / Test Set)과 학습용(Training Set)을 교차하며 반복 샘플을 모두 학습에 사용하지 않고 일부는 성능 검증에 사용 과적합 방지 ( k-fold ) [bootstrap] : N개의 Training sample에서 Bootstrap sample을 중복을 허용하여 샘플링(데이터 부족, 모집단 ..

랜덤 포레스트 (Random Forest)

1. 정의 배깅(bagging)보다 더 많은 임의성을 주어 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법 목적 : 오버피팅 방지 [사용기법] 앙상블 학습, 베깅 2. 개념도 및 절차 가. 개념도 - 배깅(Bagging) + 서브넷(Subset)의 특징을 Tree에 반영한 분석기법. - 임의의 트리를 생성하고, 각각 개별적으로 학습시킨 트리가 생성됨 나. 절차 데이터 집합 생성(부트스트랩, T개 훈련데이터 집합) 훈련(T개 기초분류기) 결합(분류기 결합) 단일 모델을 결합하여 배깅 모델 생성

부스팅(Boosting)

1. 정의 잘못 분류된 개체들에 가중치를 적용, 새로운 분류규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘 2. 절차도 및 상세절차 가. 절차도 나. 상세절차 - 로오모가파 Row data에 동일가중치로 모델 생성 생성된 모델로 인한 오분류 데이터 수집 모델 생성 오분류 데이터에 높은 가중치 부여 final 모델의 정확도 향상

배깅(Bagging)

1. 정의 주어진 데이터에서 여러 개의 bootstrap 자료를 생성하고, 각 자료를 모델링 한 후 결합 (BootstrapAggregating) 과정을 여러번 수행하여 최종 예측 모형을 만드는 알고리즘 Bootstrap Aggregating의 합성어 2. 절차도 및 세부절차 가. 절차도 나. 세부절차 - 로샘(반)모파 Row data에서 bootstrap 데이터 추출 샘플 추출을 반복하여 n개의 데이터 생성 각 데이터를 각각 모델링 하여 모델 생성 단일 모델로 결합하여 final 배깅 모델 생성