정보관리기술사/AI
원핫인코딩
기술기술
2024. 2. 5. 14:44
1. 정의
- 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법
2. 특징 및 주의사항
가. 특징
- 훈련 세트와 테스트 세트를 나누기 전에 데이터 변환 수행
- 각 값들은 서로 독립적으로 구성(단어의 속성이 벡터에 반영되지 않음)
- 차원의 저주 문제 발생
나. 주의사항
- 훈련 세트와 테스트 세트를 나누기 전에 데이터 변환 수행
- 각각을 분류 후 원핫인코딩 수행 시 두 세트에 각각 다른 인코딩이 적용 됨.