Effective Diagnostic Method Of Breast Cancer Data Using Decision Tree

Decision Tree를 이용한 효과적인 유방암 진단

  • 정용규 (을지대학교 의료IT마케팅학과) ;
  • 이승호 (을지대학교 의료산업학부 의료전산학전공) ;
  • 성호중 (을지대학교 임상병리학과)
  • Received : 2010.09.23
  • Accepted : 2010.10.15
  • Published : 2010.10.31

Abstract

Recently, decision tree techniques have been studied in terms of quick searching and extracting of massive data in medical fields. Although many different techniques have been developed such as CART, C4.5 and CHAID which are belong to a pie in Clermont decision tree classification algorithm, those methods can jeopardize remained data by the binary method during procedures. In brief, C4.5 method composes a decision tree by entropy levels. In contrast, CART method does by entropy matrix in categorical or continuous data. Therefore, we compared C4.5 and CART methods which were belong to a same pie using breast cancer data to evaluate their performance respectively. To convince data accuracy, we performed cross-validation of results in this paper.

최근 의료분야에서는 대규모의 데이터를 빠르게 검색 및 추출이 가능하게 의사결정트리 기법에 대한 연구들이 진행되고 있다. 현재 CART, C4.5, CHAID 등 여러 기법이 개발되었는데, 이러한 클레시파이 기법들은 몇몇 의사결정 나무 알고리즘이 이진분리로 분류를 하는데, 나머지 데이터의 결과가 손실될 우려가 있다. 그중 C4.5는 엔트로피의 측정값에 높고 낮음으로 트리 모양을 구성해 가는 방식이고, CART 알고리즘은 엔트로피 매트릭스를 사용하여 범주형 자료나 연속형 자료에 적용할수가 있다. 이에 본 논문에서는 클래시파이 기법 중 C4.5와 CART를 유방암 환자 데이터에 대해 적용하여 실험하여, 그 결과 분석을 통한 성능 평가를 수행하였다. 실험에서는 교차검증을 통해 그 결과에 대한 정확성을 측정하였다.

Keywords

References

  1. T Hastie, R Tibshirani, J Friedman, "The elements of statistical learning: data mining, inference and prediction", Springer, 2005
  2. Quinlan, J. Ross, "C 4.5: Programs for machine learning", The Morgan Kaufmann Series in Machine Learning, San Mateo, CA: Morgan Kaufmann, 1993
  3. MI Jordan, RA Jacobs, "Hierarchical mixtures of experts and the EM algorithm", MIT Artificial Imtelligemce Labolatory and Center for Biological and Computational Leatning Department of Brain and Cognitive Sciences, 1993
  4. E Frank, M Hall, L Trigg, G Holmes, IH Witten, "Data mining in bioinformatics using Weka", Bioinformatics, 2004 https://doi.org/10.1093/bioinformatics/bth261
  5. Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian, "Breast Cancer Wisconsin (Diagnostic) Data Set", http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic), 1995