정보관리기술사 227

아파치 카프카

1. 정의 데이터 스트림을 실시간으로 관리하기 위한 비동기 메시징 큐 기능을 제공하는 시스템 pub/sub 메시지 큐: 펍/섭 모델 스트리밍 데이터를 처리 클러스터를 Scale out해야 할 경우 수십 대의 Broker(:Server node) 확장 가능 2. 구성도 및 구성요소 가. 구성도 나. 구성요소 메시지 구성요소 - topic(레코드 저장단위), partition(round robin, 기반) 파이프라인 - Publisher, Broker, Consumer topic, producer

빅데이터 아키텍처/기술요소

1. 정의 빅데이터 수집, 저장, 처리, 분석, 표현 위해 시스템 공통 기능을 컴포넌트화 한 빅데이터 참조 아키텍처 특징) 상호운영성, 이식성, 재사용성, 확장성 2. 구성도 및 구성요소 - 소스배메스스리오 데이터 원본 데이터 스토리지 일괄 처리 실시간 메시지 수집 스트림 처리 분석 데이터 저장소 분석 및 보고 오케스트레이션

분석 모델 평가 방법

1. 정의 데이터마이닝을 통해 생성된 모델의 에러율 예측 및 모델 타당성을 평가하는 검증 방법 2. 평가기법 가. 정확도 기법 (Train-Validation) Traing Set, Validation Set, Test Set ( 60% 20% 20% ) 나. 재 샘플링 기법 (Cross Validation, Bootstrap) [cross validation] : 성능 검증용(Validation Set / Test Set)과 학습용(Training Set)을 교차하며 반복 샘플을 모두 학습에 사용하지 않고 일부는 성능 검증에 사용 과적합 방지 ( k-fold ) [bootstrap] : N개의 Training sample에서 Bootstrap sample을 중복을 허용하여 샘플링(데이터 부족, 모집단 ..

랜덤 포레스트 (Random Forest)

1. 정의 배깅(bagging)보다 더 많은 임의성을 주어 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법 목적 : 오버피팅 방지 [사용기법] 앙상블 학습, 베깅 2. 개념도 및 절차 가. 개념도 - 배깅(Bagging) + 서브넷(Subset)의 특징을 Tree에 반영한 분석기법. - 임의의 트리를 생성하고, 각각 개별적으로 학습시킨 트리가 생성됨 나. 절차 데이터 집합 생성(부트스트랩, T개 훈련데이터 집합) 훈련(T개 기초분류기) 결합(분류기 결합) 단일 모델을 결합하여 배깅 모델 생성

부스팅(Boosting)

1. 정의 잘못 분류된 개체들에 가중치를 적용, 새로운 분류규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘 2. 절차도 및 상세절차 가. 절차도 나. 상세절차 - 로오모가파 Row data에 동일가중치로 모델 생성 생성된 모델로 인한 오분류 데이터 수집 모델 생성 오분류 데이터에 높은 가중치 부여 final 모델의 정확도 향상

배깅(Bagging)

1. 정의 주어진 데이터에서 여러 개의 bootstrap 자료를 생성하고, 각 자료를 모델링 한 후 결합 (BootstrapAggregating) 과정을 여러번 수행하여 최종 예측 모형을 만드는 알고리즘 Bootstrap Aggregating의 합성어 2. 절차도 및 세부절차 가. 절차도 나. 세부절차 - 로샘(반)모파 Row data에서 bootstrap 데이터 추출 샘플 추출을 반복하여 n개의 데이터 생성 각 데이터를 각각 모델링 하여 모델 생성 단일 모델로 결합하여 final 배깅 모델 생성

DB 성능 개선 (Tuning) 방안

1. 정의 데이터베이스의 성능상의 문제점들을 파악한 후, 문제점의 튜닝을 통한 데이터베이스의 최적화 [목적] 힛대응 Hit rate최대화, 대기시간 최소화, 응답시간 향상 2. DB 튜닝 절차 및 지표,요건 가. 절차 설계 : DB의 논리적 구조에 대한 성능 개선 작업(반정규화,분산파일배치) 프로세스 개선, 테이블 분할/통합, 식별자 지정, 인덱스 생성, 적절한 데이터타입, 반정규화(프테식인타반) DBMS : DB의 메모리 영역, 물리적 구조 등 개선하는 작업(Buffer,Cache크기) 설정 파라미터 조정, 메모리 사용 최적화, 체크포인트, Java Heap 증가, Redo Log, Rollback Segment, CPU, 메모리, 스토리지, 네트워크 튜닝(설메체자리롤) SQL(QEP 측면) : SQL..

정규화

1. 정의 이상현상을 발생시키는 Attribute 간의 종속 관계(FD)를 제거하기 위하여 Relation(테이블)을 작은 여러 Relation(테이블)으로 무손실 분해하는 과정 2. 정규화의 원칙 및 유형 가. 원칙 나. 정규화의 유형 3. 유형별 사례 가. 1차 정규화 - 반복(중복) 제거 -> 의존자의 중복을 없애는 작업 나. 2차 정규화 - 부분함수 종속 제거 다. 3차 정규화 - 이행함수 종속 제거 라. 3.5차 정규화(BCNF) - 3차 정규화를 강화, 결정자는 후보키여야 함. 마. 4차 정규화 - 다치 종속 발생, 이를 제거 바. 5차 정규화 - 결합( 조인) 종속성을 제거