A Comparative Study on Feature Combination for MathML Formula Classification

MathML 수식 분류를 위한 자질 조합 비교 연구

  • 김신일 (동아대학교, 컴퓨터공학과) ;
  • 양선 (동아대학교, 컴퓨터공학과) ;
  • 고영중 (동아대학교, 컴퓨터공학과)
  • Published : 2010.10.08

Abstract

본 논문에서는 Mathematical Markup Language(MathML) 형식으로 작성된 수학식 분류를 위해 필요한 자질과 성능 향상에 기여하는 자질 조합을 비교 평가한다. 이것은 MathML 형식의 수학식을 분석하기 위한 전처리 작업으로, 연산자의 모호성을 해소하기 위한 가장 기본적인 단계에 해당한다고 볼 수 있다. 실험에 사용되는 기본자질(Baseline)은 MathML 태그 정보와 연산자이고, 여기에 다른 자질들을 추가하며 가장 높은 분류 성능을 가지는 자질을 찾는 방식으로 진행하였다. 학습은 지지벡터기기(Support Vector Machine: SVM)를 사용하였고 분류하고자 하는 단원은 '수학의 정석' 책을 토대로 총 12개(집합, 명제, 미분, 적분 등)로 나누었다. 실험을 통해 MathML 문서 안에서 가장 유용한 자질이 '식별자&연산자 바이그램'인 것을 알 수 있었고, 여러 가지 자질들을 조합하여 수학식을 분류한 결과 92.5%의 성능으로 분류하는 것을 확인할 수 있었다.

Keywords