Two-Phase Hidden Markov Models for Call-for-Paper Information Extraction

논문 모집 공고에서의 정보 추출을 위한 2단계 은닉 마코프 모델

  • Kim, Jeong-Hyun (Dept. of Computer Engineering, Kyungpook National University) ;
  • Park, Seong-Bae (Dept. of Computer Engineering, Kyungpook National University) ;
  • Lee, Sang-Jo (Dept. of Computer Engineering, Kyungpook National University)
  • 김정현 (경북대학교 언어정보연구실) ;
  • 박성배 (경북대학교 언어정보연구실) ;
  • 이상조 (경북대학교 언어정보연구실)
  • Published : 2005.10.21

Abstract

본 논문은 은닉 마코프 모델(hidden Markov Model: HMM)을 2 단계로 적용하여 논문 모집공고(Call-for-Paper: CFP)에서 필요한 정보를 추출하는 방법을 제안한다. HMM은 순차적인 흐름의 정보를 담고 있는 데이터를 잘 설명할 수 있으며 CFP가 담고 있는 정보에는 순서가 있기 때문에, CFP를 HMM으로 설명할 수 있다. 하지만, 문서를 전체적으로(global) 파악하는 HMM만으로는 정보의 정확한 경계를 파악할 수 없다. 따라서 첫 번째 단계로 CFP문서에서 구(phrase) 단위를 구성하는 단어의 열에 대한 HMMs을 통해 국부적으로(local) 정보의 경계와 대강의 종류를 파악한다. 그리고 두 번째 단계에서 전체적인 문서의 내용 흐름에 근거하여 구축된 HMM을 이용하여 그 정보가 세부적으로 어떤 종류의 정보인지 정한다. PASCAL challenge에서 제공받은 Cff 말뭉치에 대한 첫 번째 단계의 실험 결과, 0.60의 재현률과 0.61의 정확률을 보였으며, 정확률과 재현률을 바탕으로 F-measure를 측정한 결과 0.60이었다.

Keywords