1. 정의
- 구조화되지 않은 대규모 텍스트 집단으로부터 자동적으로 정보 추출함으로써 새로운 정보 발견하는 정보기술
- 문서 및 Text 대상, 형태소 분석
2. 절차 및 분석 기법
가. 절차 - 수전분해
- 문서수집 > 문서 전처리 > 텍스트 분석 > 결과해석 및 정제
나. 분석기법
- 전처리 인덱싱 기법
- FB (Frequency-Based) : 문서 내 빈출 단어 높은 가중치 부여
- IDF (Inverse Document Frequency) : 특정문서에서 중요 단어 파악, 타 문서와 구분 해주는 단어에 계산
- LSI (Latent Semantic Indexing) : 문서 간 공유(co-occurrence) 단어 파악, 개념/주제에 의해 문서검색 가능
- 텍스트 마이닝 분석 기법
- 문서분류 (Document Classification) : 텍스트 내용 분석해 사전 정의된 범주를 적절히 부여 - 문서유사도, 패턴인식 정보검색 기반
- 문서요약 (Summarization) : 문서의 전체내용 대표 가능한 내용을 추출하는 작업 - 분류기법 2개 이상 조합해 이용, 표면수준접근, 개체수준접근, 화법수준접근
- 군집화 (Clustering) : 텍스트 집단을 내용 유사도에 따라 여러 소집단으로 분할 - 정적군집화 (군집개수), 동적군집화 (임계유사도)