Two-Phase Hidden Markov Models for Call-for-Paper Information Extraction

Kim, Jeong-Hyun;Park, Seong-Bae;Lee, Sang-Jo;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2005.10a
/
Pages.7-12
/
2005
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Two-Phase Hidden Markov Models for Call-for-Paper Information Extraction

논문 모집 공고에서의 정보 추출을 위한 2단계 은닉 마코프 모델

Kim, Jeong-Hyun (Dept. of Computer Engineering, Kyungpook National University) ;
Park, Seong-Bae (Dept. of Computer Engineering, Kyungpook National University) ;
Lee, Sang-Jo (Dept. of Computer Engineering, Kyungpook National University)

김정현 (경북대학교 언어정보연구실) ;
박성배 (경북대학교 언어정보연구실) ;
이상조 (경북대학교 언어정보연구실)

Published : 2005.10.21

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문은 은닉 마코프 모델(hidden Markov Model: HMM)을 2 단계로 적용하여 논문 모집공고(Call-for-Paper: CFP)에서 필요한 정보를 추출하는 방법을 제안한다. HMM은 순차적인 흐름의 정보를 담고 있는 데이터를 잘 설명할 수 있으며 CFP가 담고 있는 정보에는 순서가 있기 때문에, CFP를 HMM으로 설명할 수 있다. 하지만, 문서를 전체적으로(global) 파악하는 HMM만으로는 정보의 정확한 경계를 파악할 수 없다. 따라서 첫 번째 단계로 CFP문서에서 구(phrase) 단위를 구성하는 단어의 열에 대한 HMMs을 통해 국부적으로(local) 정보의 경계와 대강의 종류를 파악한다. 그리고 두 번째 단계에서 전체적인 문서의 내용 흐름에 근거하여 구축된 HMM을 이용하여 그 정보가 세부적으로 어떤 종류의 정보인지 정한다. PASCAL challenge에서 제공받은 Cff 말뭉치에 대한 첫 번째 단계의 실험 결과, 0.60의 재현률과 0.61의 정확률을 보였으며, 정확률과 재현률을 바탕으로 F-measure를 측정한 결과 0.60이었다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Two-Phase Hidden Markov Models for Call-for-Paper Information Extraction

논문 모집 공고에서의 정보 추출을 위한 2단계 은닉 마코프 모델

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)