초록

본 논문은 결정 트리를 이용하여 불완전한 데이터에서 결측값의 추정치를 구하는 알고리즘에 대해 소개한다. 결정 트리를 구성하기 위한 분류기로 서로 다른 특성을 가지는 C4.5와 SVM 계열의 알고리즘을 사용하는데 구현 과정을 통해 두 분류기의 특성과 성능을 알아본다. 불완전한 데이터의 처리기법으로 결정트리를 선택한 것은 결정 트리의 각 노드들은 입력 패턴들의 분류 정보(hyperplane)를 가지고 있고, 루트에서 말단 노드에 이르는 경로는 분류면을 결합하게 하여 하나의 영역을 만든다는 것이다. 따라서 불완전한 데이터를 위한 본 논문의 핵심 아이디어는 루트에 손실 사건을 입력하고 순회를 통해 손실 정보와 가장 유사한 영역을 찾는다. 그리고 이 영역의 사건들로부터 손실정보의 추정치를 구한다는 것이다. 구현의 관점에서 살펴보면 학습 데이터를 손실과 비손실 데이터로 분리하고, 비손실 데이터를 C4.5/SVM에 입력하여 결정 트리를 완성한다. 다음으로 손실 데이터를 이 결정 트리에 입력한 후, 가장 유사한 특성을 찾기 위한 조건에 따라 순회를 단말 노드에 도달할 때까지 반복한다.

키워드

C4.5, Decision tree, Incomplete data, Mean value, Missing value, SVM

참고문헌(0)